[南开大学]21春学期《网络爬虫与信息提取》在线作业-参考答案1Word格式文档下载.docx
- 文档编号:13032017
- 上传时间:2022-10-03
- 格式:DOCX
- 页数:14
- 大小:25.19KB
[南开大学]21春学期《网络爬虫与信息提取》在线作业-参考答案1Word格式文档下载.docx
《[南开大学]21春学期《网络爬虫与信息提取》在线作业-参考答案1Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《[南开大学]21春学期《网络爬虫与信息提取》在线作业-参考答案1Word格式文档下载.docx(14页珍藏版)》请在冰豆网上搜索。
参考答案是:
B
2.()是一个传递信息的通道。
它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.headC.headerD.body
A
3.启动MongoDB使用命令mongod--()usr/local/etc/mongoD.confA.config
B.installC.startD.begin
4.HTTP常用状态码表明服务器不允许访问那个资源的是()A.500
B.503
C.403D.405
C
5.Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为()A.空
B.空列表
C.空元组D.不返回
6.Scrapy中使用Xpath获得的结果调用了.extract方法,结果以()形式生成
A.列表B.元组C.字典D.集合
7.在Scrapy的目录下,哪个文件负责数据抓取以后的处理工作?
()A.spiders文件夹
B.item.pyC.pipeline.pyD.settings.py
8.Python在Windows路径字符串左引号的左边加()符号来避免反斜杠问题
A.sB.cC.dD.r
D
9.python中可以用来将图片中的文字转换为文本的第三方类库是
A.lxmlB.requestsC.beautifulsoupD.pytesseract
10.在Linux中哪个命令是添加权限的()A.chmod
B.sudoC.cpD.mkdir
11.使用python定制mitmproxy,下面的语句请求的是()。
{req.headers["
User-Agent"
]}
A.headersB.文本内容C.目标网站
D.user-agent
12.PyMongo中逻辑查询表示小于等于的符号是()A.$gt
B.$lt
C.$gte$$lte
13.Python中若定义object=[1,2,3,4,5],则print(object[-4])输出()A.NULL
B.2C.4
D.程序报错
14.Python中Object={'
obj_1'
:
'
1'
'
obj_2'
2'
},则Objcet.get('
boj_3'
3'
)是()A.1
B.2
C.3
D.无输出
15.PyMongo中的查找方法的参数是哪种数据结构()A.列表
B.元组
C.字典D.集合
16.Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含()
A.列表B.元组C.字典D.集合
17.Redis是一个开源的使用()语言编写
A.ANSICB.C++C.JAVA
D.Python
18.下面关于Charles使用说法错误的是()
A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰。
B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息。
C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过Charles。
D.Charles无法支持计算机上除了浏览器之外的其他软件。
19.以下哪个命令是利用URL语法在命令行下工作的文件传输工具()A.curl
B.tar-zxvfC.mkdirD.cp
20.Python中Object=[1,2,3,4,5],则Objcet是()A.列表
B.元组C.字典D.集合
二、多选题(共10道试题,共20分)
21.下列关于mitmproxy的使用说法正确的是()A.mitmproxy的端口为8080端口。
B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动。
C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息。
D.如果要访问HTTPS网站,还需要安装mitmproxy的证书
ABCD
22.cookies的缺点是
A.实现自动登录B.跟踪用户状态C.http中明文传输
D.增加http请求的流量
CD
23.以下哪些可以独立成为Python编译器()A.Pycharm
B.IDLE
C.Eclipse
D.VisualStudio2010
AB
24.Python中()容器有推导式
ACD
25.使用Selennium获取网页中元素的方法有A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id
26.Python中一个函数没有返回值则可以写()A.没有return
B.returnC.returnNoneD.returnNULL
ABC
27.Python中一个函数可以有()个return语句
A.0B.1
C.多个
D.2
28.以下哪些方法属于Python写CSV文件的方法()A.writeheaders
B.writeheader
C.writerrowsD.writerow
29.Python中通过Key来从字典object中读取对应的Value的方法有()A.object[key]
B.object.get(key)
C.object.pop(key)D.object.pop()
30.BS4可以用来从()中提取数据
A.HTMLB.XML
C.数据库D.JSON
三、判断题(共20道试题,共40分)
31.scrapy与selenium结合可以实现直接处理需要异步加载的页面
[以上叙述是否正确?
]A.正确
B.错误
正确
32.使用UIAutomatorr让屏幕向右滚动的操作是得到相应控件后使用命令
scroll.horiz.forward()
错误
33.Python可以将列表或字典转换成Json字符串
34.Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;
[以上叙述是否正确?
]
A.正确
B.错误
35.cookies在http请求中是明文传输的。
36.Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。
37.在安装Scarpy的依赖库时,由于VisualC++BuildTools的安装速度很慢,为了节省时间,可以和安装Twisted
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 南开大学 网络爬虫与信息提取 21 学期 网络 爬虫 信息 提取 在线 作业 参考答案