Python网络爬虫实战案例

知识学习
0 709
小师傅 小师傅2019-06-17
VIP1 积分:2397

1、网络爬虫基本流程:

1.1、发起请求:client通过HTTP库向目标站点发起请求Request等待服务器响应。

1.2、获取响应内容:server响应Response的内容就是页面的内容,类型有HTML,Json,二进制等。

1.3、解析内容:HTML可用正则表达式、网页解析库解析。Json可用直接转化为json对象解析。二进制数据,可用进一步保存或者处理。

1.4、保存数据:结构化的存储,可用保存为文本,保存至数据库,或者保存为特定格式的文件。

2、Reques与Response:

2.1、Request:1、请求方式:主要有GET、POST两种类型,还有HEAD、PUT、DELETE、OPTIONS等。2、请求URL:URL即就是统一资源定位符,网页、图片、视频等可用URL唯一确定。3、请求头:包含请求时的头部信息,如User-Agent、Host、Cookies等信息。4、请求体:请求时额外携带的数据,如表单提交时的表单数据。

2.2、Response:1、响应状态:响应状态,如200表示成功,301表示跳转,404表示找不到页面,502服务器错误。2、响应头:如内容类型,内容长度,服务器信息,设置Cookie等等。3、响应体:最主要的部分,包含了请求的资源内容,如HTML、图片视频、二进制数据等。

3、爬虫能抓取的数据:

3.1、网页文本:HTML文档、Json格式文本等。

3.2、图片:获取到的是二进制文件,保存为图片格式。

3.3、视频:也是二进制文件,保存为视频格式即可。

3.4、其他:只要是能够请求到的数据,都能获取到信息。

4、解析方式:

4.1、直接处理:适合网页简单的。

4.2、Json解析:适合网页是Json字符串的。

4.3、正则表达式:适合对HTML解析。

4.4、库解析:BeautifulSoup库、PyQuery库、XPath库等等。

5、请求的结果与浏览器看到的结果不一样:

5.1、原因:浏览器的渲染效果。JavaScript与后台的交互数据。

5.2、怎样解决JavaScript渲染问题:分析Ajax请求(Json字符串)。Selenium/WebDriver解决(pip可以安装)。Splash解决(在GitHub中可以搜索安装)。PyV8、Ghost.py。

6、怎样保持数据:

6.1、文本:纯文本,Json,Xml等。

6.2、关系型数据库:如MySQL、Oracle、SQLServer等有结构化表结构化形式存储。

6.3、非关系型数据库:如MongoDB、Redis等Key-Value形式存储。

6.4、二进制文件:如图片、视频、音频等直接保存为特定格式。

TIM截图20190617152611.png

TIM截图20190617152630.png


想要学习的朋友,请自行下载

精选帖子
Android 可可影视 v3.3.6无广告纯净版 1758
Android QQ音乐 v11.3.7 定制版解锁免费听歌无广告版 2192
Android 草图大师SKP v1.5 解锁会员版 7643
Android OmoFun追漫神器 v4.2.1 无广告绿色版 4645
AdobeGenP Adobe全家桶系列激活工具 v3.5.0/3.4.14.1 绿色版 5226
Android 七猫免费听书 v1.4 解锁高级版 3684
超良心的抢票神器——Bypass1.16 3232
Android 玲珑加速器 v6.10.9.40 解锁无限时间 2061
Android 大师兄影视 v3.3.8 去广告会员版 1187
热门帖子
玫瑰克隆,一键爆款工具详细介绍和使用教程,自媒体必备 177
好用的梯子软件推荐-稳定好用的手机梯子软件+电脑好用的梯子及外网加速器指南(免费试用升级付费) 104
安卓手机平板上运行Windows软件游戏 Winlator11.0汉化中文版最新版 93
拳皇 WingEX1.2 前瞻版最新修复版 2025.11.23 格斗游戏拳皇EX改版游戏 91
B站APP Bilibili哔哩哔哩(内置哔哩漫游v1.7.0) v8.72.0哔哩漫游版 各种去广告净化 89
30T电脑单机游戏资源下载 单机游戏+单机网游合集下载 1000+3A大型游戏 87
多多虚拟类目新玩法:机器人全程帮助发货和回客服,轻松实现月入1-5W目标 79
应用管家TV版 v1.8.0 电视应用和文件管理器 应用提取 传输文件 网盘 支持车机+平板 76
玫瑰克隆,自媒体必备,一键爆款工具详细介绍和使用教程 41