您现在所在位置: 首页 > 睿道新闻

python培训介绍之什么是python爬虫?

发布时间:2020-09-11点击数:


  今天详细说明python爬行动物的原理,python爬行动物是什么,python爬行动物的基本流程是什么等,希望对正在学习python爬行动物的学生有所帮助


  前言。


  简而言之,互联网是由一个网站和一个网络设备组成的一个大网络。我们通过浏览器访问网站,网站将HTML、JS和CSS代码返回浏览器。这些代码通过浏览器的分析和渲染来展示丰富多彩的网页。


   一、爬虫类是什么?


  如果我们把互联网比作一个大蜘蛛网,数据管在蜘蛛网的各个节点,爬虫类是小蜘蛛


  沿着网络捕捉自己的猎物(数据)爬行动物是指向网站提出要求,获得资源分析提取有用数据的程序


  从技术层面来看,通过程序模拟浏览器要求站点的行为,将站点返回的HTML代码/JSON数据/二进制数据(图像、视频)登陆当地,提取自己需要的数据,保管使用


   二、爬虫类的基本流程:


  用户获取网络数据的方法:


  方式1:浏览器提交请求->下载网页代码->分析为网页。


  方式2:模拟浏览器发送请求(获得web代码)->提取有用的数据->存储在数据库和文件中。


  爬虫要做的是方法2


  1.开始请求。


  使用http库向目标站点发送请求,即Request。


  Request包括请求头、请求体等。


  Request模块缺陷:JS和CSS代码无法执行。


  2.获得应答内容。


  如果服务器能够正常响应,就会得到Response。


  Response包括html、json、照片、视频等。


  3.分析内容。


  html数据分析:正则表达式(RE模块),第三方分析库如Beautifulsoup、pyquery等。


  json数据分析:json模块。


  解析二进制数据:以wb的方式写入文件。


  4.保存数据。


  数据库(MySQL、Mongdb、Redis)


  文件。


   三、http协议请求及响应。


  Request:用户将自己的信息通过浏览器发送给服务器


  Response:服务器接收请求,分析用户发送的请求信息,返回数据(返回数据可能包含图像、js、css等其他链接)。


  ps:浏览器在接收Response后,分析其内容向用户显示,爬虫类程序在模拟浏览器发送请求并接收Response后,必须提取有用的数据。



  • 友情链接

关注东软睿道公众号了解更多IT行业资讯

添加东小萌微信
获取更多IT学习资源