什么是爬虫？做爬虫需要掌握哪些知识？_有医说壹

个人资料

微博

正文字体大小：大中小

什么是爬虫？做爬虫需要掌握哪些知识？

(2019-07-17 14:44:02)

标签：

分类：虾药

今天，为大家分享一下关于Python编程语言中的爬虫技术点的有关知识！希望能对初入门的小伙伴有所帮助！

01、什么是“爬虫”？

简单来说，写一个从Web上获取需要数据并按规定格式存储的程序就叫爬虫。

通俗说什么是爬虫?

网络爬虫通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

网络爬虫(Web crawler)，就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现，行为类似一个蜘蛛。蜘蛛在互联网上爬行，一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。

02、爬虫可以做什么？

你可以用爬虫爬图片，爬取视频等等你想要爬取的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取。

Python爬虫能做什么

世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

03、“爬虫”需要掌握哪些知识？

1.超文本传输协议HTTP

HTTP协议定义了浏览器怎样向万维网服务器请求万维网文档，以及服务器怎样把文档传送给浏览器。常用的HTTP方法有GET、POST、PUT、DELETE。

2.统一资源定位符URL

URL是用来表示从因特网上得到的资源位置和访问这些资源的方法。

URL给资源的位置提供一种抽象的识别方法，并用这种方法给资源定位。只要能够对资源定位，系统就可以对资源进行各种操作，如存取、更新、替换和查找其属性。URL相当于一个文件名在网络范围的扩展。

3.超文本标记语言HTML

HTML指的是超文本标记语言，是使用标记标签来描述网页的。HTML文档包含HTML标签和纯文本，也称为网页。

4.浏览器调试功能

学爬虫就是抓包，对请求和响应进行分析，用代码来模拟。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report