南开20秋学期《网络爬虫与信息提取》在线作业参考答案.docx
- 文档编号:409986
- 上传时间:2022-10-09
- 格式:DOCX
- 页数:19
- 大小:23.04KB
南开20秋学期《网络爬虫与信息提取》在线作业参考答案.docx
《南开20秋学期《网络爬虫与信息提取》在线作业参考答案.docx》由会员分享,可在线阅读,更多相关《南开20秋学期《网络爬虫与信息提取》在线作业参考答案.docx(19页珍藏版)》请在冰豆网上搜索。
南开20秋学期《网络爬虫与信息提取》在线作业参考答案
20秋学期(1709、1803、1809、1903、1909、2003、2009)《网络爬虫与信息提取》在线作业
试卷总分:
100得分:
100
一、单选题(共20道试题,共40分)
1.当爬虫创建好了之后,可以使用"scrapy()"命令运行爬虫。
A.startup
B.starwar
C.drawl
D.crawl
答案:
D
2.以下哪个命令是复制文件或者文件夹命令()
A.curl
B.tar-zxvf
C.mkdir
D.cp
答案:
D
3.Python中哪种容器一旦生成就不能修改
A.列表
B.元组
C.字典
D.集合
答案:
B
4.在Scrapy的目录下,哪个文件负责定义需要爬取的数据?
()
A.spiders文件夹
B.item.py
C.pipeline.py
D.settings.py
答案:
B
5.使用UIAutomatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
A.swipe
B.move
C.scroll
D.fly
答案:
A
6.xpath中extract方法返回值类型是()
A.列表
B.元组
C.字典
D.集合
答案:
A
7.以下哪个命令是linux下解压缩命令()
A.curl
B.tar-zxvf
C.mkdir
D.cp
答案:
B
8.Python中定义函数关键字为()
A.def
B.define
C.func
D.function
答案:
A
9.下列说法错误的是()
A.小程序的请求极其简单,基本上没有验证信息
B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
D.小程序的反爬虫能力比网页版的低很多。
使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
答案:
B
10.当需要把Python里面的数据发送给网页时,应先将其转换成()
A.Json字符串
B.GET
C.POST
D.Request
答案:
A
11.Redis中从集合中查看有多少个值,用关键字()
A.scard
B.card
C.count
D.distinct
答案:
A
12.Python中把集合转换为列表需要使用##函数
A.set
B.list
C.convert
D.change
答案:
B
13.lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据
A.etree.tostring
B.etree.convertBytes
C.etree.toBytes
D.etree.convertstring
答案:
A
14.Python操作CSV文件可通过()容器的方式操作单元格
A.列表
B.元组
C.字典
D.集合
答案:
C
15.Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题
A.s
B.c
C.d
D.r
答案:
D
16.如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个()
A.列表
B.元组
C.字典
D.集合
答案:
C
17.HTTP常用状态码表明服务器正忙的是()
A.500
B.503
C.403
D.404
答案:
B
18.使用xpath方法的返回类型是()
A.列表
B.元组
C.字典
D.集合
答案:
A
19.下面Python代码输出为():
defdefault_para_trap(para=[],value=0):
para.append(value)returnparaprint('第一步:
{}'.format(default_para_trap(value=100)))print('第二步:
{}'.format(default_para_trap(value=50)))
A.第一步:
[100]第二步:
[100,50]
B.第一步:
[100]第二步:
[50]
C.第一步:
[100]第二步:
[]
D.第一步:
[100]第二步:
[100]
答案:
A
20.下面Python代码输出为():
defdefault_para_without_trap(para=[],value=0):
ifnotpara:
para=[]para.append(value)returnparaprint('第一步:
{}'.format(default_para_trap(value=100)))print('第二步:
{}'.format(default_para_trap(value=50)))
A.第一步:
[100]第二步:
[100,50]
B.第一步:
[100]第二步:
[50]
C.第一步:
[100]第二步:
[]
D.第一步:
[100]第二步:
[100]
答案:
B
二、多选题(共10道试题,共20分)
21.使用Selennium获取网页中元素的方法有
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
答案:
ABCD
22.下列关于在IOS上配置charles的说法正确的是()
A.不同ios设备之间会有比较大的差别,所以配置的时候需要找到对应的安装证书的入口。
B.手机和电脑需要在同一个局域网下。
C.HTTP代理可以使用“自动”选项。
D.安装好证书以后,打开iOS设备上的任何一个App,可以看到Charles中有数据包在流动
答案:
BD
23.Python中有哪些实现多线程方法()
A.multiprocess.dummy
B.threading.Thread
C.process
D.PyMongoDB
答案:
AB
24.Redis中的值可以支持()
A.列表
B.哈希
C.集合
D.有序集合
答案:
ABCD
25.cookies的缺点是
A.实现自动登录
B.跟踪用户状态
C.http中明文传输
D.增加http请求的流量
答案:
CD
26.Python中通过Key来从字典object中读取对应的Value的方法有()
A.object[key]
B.object.get(key)
C.object.pop(key)
D.object.pop()
答案:
AB
27.为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
A.仔细检查代码
B.开发爬虫中间件
C.开发下载器中间件
D.等待
答案:
AB
28.Python中()与元组由类似的数据读取方式
A.字符串
B.列表
C.字典
D.集合
答案:
AB
29.HTTP常用状态码表明请求被正常处理的有()
A.200
B.301
C.302
D.204
答案:
AD
30.PyMongo更新操作有()
A.update
B.update_all
C.update_one
D.update_many
答案:
CD
三、判断题(共20道试题,共40分)
31.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的
答案:
错误
32.如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。
答案:
正确
33.Redis中使用lrange读取数据后数据也会删除
答案:
错误
34.Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取
答案:
错误
35.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。
这是合法的。
答案:
正确
36.HTTP状态码中303状态码明确表示客户端应当采用POST方法获取资源
答案:
错误
37.process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用
答案:
错误
38.通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
答案:
错误
39.在使用多线程处理问题时,线程池设置越大越好
答案:
错误
40.需要登录的网站一般通过GET请求就可以实现登录。
答案:
错误
41.process_spider_input(response,spider)是在爬虫运行yielditem或者yieldscrapy.Request()的时候调用
答案:
错误
42.Python中函数返回值的个数可以是多个
答案:
正确
43.爬虫的源代码通过公开不会对被爬虫网站造成影响
答案:
错误
44.通用网络爬虫通常采用串行工作方式
答案:
错误
45.虽然MongoDB相比于MySQL来说,速度快了很多,但是频繁读写MongoDB还是会严重拖慢程序的执行速度。
答案:
正确
46.爬虫中间件的激活需要另外写一个文件来进行
答案:
错误
47.在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装
答案:
错误
48.Redis中查询列表长度命令llen中l代表left,即从左侧开始数
答案:
错误
49.Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
答案:
错误
50.mitmproxy的强大之处在于它还自带一个mitmdump命令。
这个命令可以用来运行符合一定规则的Python脚本
答案:
正确
以下内容不需要的请删除
北交《JAVA语言设计》在线作业一-0006
试卷总分:
100得分:
100
一、单选题(共25道试题,共75分)
1.在Java中,表示换行符的转义字符是()
A.\n
B.\f
C.\dd
D.'n'
答案:
A
2.下列构造方法的调用方式中,正确的是()。
A.被系统调用
B.由用户直接调用
C.按照一般方法调用
D.只能通过new自动调用
答案:
D
3.在调用函数并传递参数时,将变量对应的内存位置传递给函数,而函数会根据内存位置取得参数的值,是指哪种方式()
A.返回值
B.地址传递调用
C.值传递调用
D.以上都不是
答案:
B
4.设i、j为int型变量名,a为int型数组名,以下选项中,正确的赋值语句是()
A.i++---j;
B.i=i+2
C.a[0]=7;
D.a(0)=66;
答案:
C
5.编译并且执行以下代码,会出现什么情况()。
?
public?
class?
Q{?
public?
static?
void?
main(String?
argv[]){?
int?
anar[]=new?
int[]{1,2,3};?
System.out.println(anar[1]);?
}?
}
A.有错误,数组的大小没有定义。
B.有错误,数组anar在初始化以前不能正常输出
C.2
D.1
答案:
C
6.设x、y为已定义的类名,下列声明x类的对象x1的语句中正确的是()
A.yx1;
B.xx1=x();
C.staticxx1;
D.publicxx1=newx(int123);
答案:
C
7.执行完代码"int[]x=newint[25];"后,以下()说明是正确的。
A.x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络爬虫与信息提取 南开 20 学期 网络 爬虫 信息 提取 在线 作业 参考答案