今天详细说明python爬行动物的原理,python爬行动物是什么,python爬行动物的基本流程是什么等,希望对正在学习python爬行动物的学生有所帮助
前言。
简而言之,互联网是由一个网站和一个网络设备组成的一个大网络。我们通过浏览器访问网站,网站将HTML、JS和CSS代码返回浏览器。这些代码通过浏览器的分析和渲染来展示丰富多彩的网页。
一、爬虫类是什么?
如果我们把互联网比作一个大蜘蛛网,数据管在蜘蛛网的各个节点,爬虫类是小蜘蛛
沿着网络捕捉自己的猎物(数据)爬行动物是指向网站提出要求,获得资源分析提取有用数据的程序
从技术层面来看,通过程序模拟浏览器要求站点的行为,将站点返回的HTML代码/JSON数据/二进制数据(图像、视频)登陆当地,提取自己需要的数据,保管使用
二、爬虫类的基本流程:
用户获取网络数据的方法:
方式1:浏览器提交请求->下载网页代码->分析为网页。
方式2:模拟浏览器发送请求(获得web代码)->提取有用的数据->存储在数据库和文件中。
爬虫要做的是方法2
1.开始请求。
使用http库向目标站点发送请求,即Request。
Request包括请求头、请求体等。
Request模块缺陷:JS和CSS代码无法执行。
2.获得应答内容。
如果服务器能够正常响应,就会得到Response。
Response包括html、json、照片、视频等。
3.分析内容。
html数据分析:正则表达式(RE模块),第三方分析库如Beautifulsoup、pyquery等。
json数据分析:json模块。
解析二进制数据:以wb的方式写入文件。
4.保存数据。
数据库(MySQL、Mongdb、Redis)
文件。
三、http协议请求及响应。
Request:用户将自己的信息通过浏览器发送给服务器
Response:服务器接收请求,分析用户发送的请求信息,返回数据(返回数据可能包含图像、js、css等其他链接)。
ps:浏览器在接收Response后,分析其内容向用户显示,爬虫类程序在模拟浏览器发送请求并接收Response后,必须提取有用的数据。