什么是爬虫?做爬虫需要掌握哪些知识?
(2019-07-17 14:44:02)
标签:
爬虫python编程 |
分类: 虾药 |
今天,为大家分享一下关于Python编程语言中的爬虫技术点的有关知识!希望能对初入门的小伙伴有所帮助!
01、什么是“爬虫”?
简单来说,写一个从Web上获取需要数据并按规定格式存储的程序就叫爬虫。
通俗说什么是爬虫?
网络爬虫通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。
网络爬虫(Web crawler),就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现,行为类似一个蜘蛛。蜘蛛在互联网上爬行,一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。
02、爬虫可以做什么?
你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。
Python爬虫能做什么
世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。
03、“爬虫”需要掌握哪些知识?
1.超文本传输协议HTTP
HTTP协议定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。常用的HTTP方法有GET、POST、PUT、DELETE。
2.统一资源定位符URL
URL是用来表示从因特网上得到的资源位置和访问这些资源的方法。
URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。URL相当于一个文件名在网络范围的扩展。
3.超文本标记语言HTML
HTML指的是超文本标记语言,是使用标记标签来描述网页的。HTML文档包含HTML标签和纯文本,也称为网页。
4.浏览器调试功能
学爬虫就是抓包,对请求和响应进行分析,用代码来模拟。