您现在所在位置：首页 > 睿道新闻

python培训介绍之什么是python爬虫?

发布时间：2020-09-11点击数：

　　今天详细说明python爬行动物的原理，python爬行动物是什么，python爬行动物的基本流程是什么等，希望对正在学习python爬行动物的学生有所帮助

　　前言。

　　简而言之，互联网是由一个网站和一个网络设备组成的一个大网络。我们通过浏览器访问网站，网站将HTML、JS和CSS代码返回浏览器。这些代码通过浏览器的分析和渲染来展示丰富多彩的网页。

　　一、爬虫类是什么?

　　如果我们把互联网比作一个大蜘蛛网，数据管在蜘蛛网的各个节点，爬虫类是小蜘蛛

　　沿着网络捕捉自己的猎物(数据)爬行动物是指向网站提出要求，获得资源分析提取有用数据的程序

　　从技术层面来看，通过程序模拟浏览器要求站点的行为，将站点返回的HTML代码/JSON数据/二进制数据(图像、视频)登陆当地，提取自己需要的数据，保管使用

　　二、爬虫类的基本流程:

　　用户获取网络数据的方法:

　　方式1:浏览器提交请求->下载网页代码->分析为网页。

　　方式2:模拟浏览器发送请求(获得web代码)->提取有用的数据->存储在数据库和文件中。

　　爬虫要做的是方法2

　　1.开始请求。

　　使用http库向目标站点发送请求，即Request。

　　Request包括请求头、请求体等。

　　Request模块缺陷:JS和CSS代码无法执行。

　　2.获得应答内容。

　　如果服务器能够正常响应，就会得到Response。

　　Response包括html、json、照片、视频等。

　　3.分析内容。

　　html数据分析:正则表达式(RE模块)，第三方分析库如Beautifulsoup、pyquery等。

　　json数据分析:json模块。

　　解析二进制数据：以wb的方式写入文件。

　　4.保存数据。

　　数据库(MySQL、Mongdb、Redis)

　　文件。

　　三、http协议请求及响应。

　　Request:用户将自己的信息通过浏览器发送给服务器

　　Response:服务器接收请求，分析用户发送的请求信息，返回数据(返回数据可能包含图像、js、css等其他链接)。

　　ps:浏览器在接收Response后，分析其内容向用户显示，爬虫类程序在模拟浏览器发送请求并接收Response后，必须提取有用的数据。