加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

什么是爬虫?做爬虫需要掌握哪些知识?

(2019-07-17 14:44:02)
标签:

爬虫

python编程

分类: 虾药

今天,为大家分享一下关于Python编程语言中的爬虫技术点的有关知识!希望能对初入门的小伙伴有所帮助!

01、什么是“爬虫”?

简单来说,写一个从Web上获取需要数据并按规定格式存储的程序就叫爬虫。

通俗说什么是爬虫?

网络爬虫通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。

网络爬虫(Web crawler),就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现,行为类似一个蜘蛛。蜘蛛在互联网上爬行,一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。

02、爬虫可以做什么?

你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。

Python爬虫能做什么

世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

03、“爬虫”需要掌握哪些知识?

1.超文本传输协议HTTP

HTTP协议定义了浏览器怎样向万维网服务器请求万维网文档,以及服务器怎样把文档传送给浏览器。常用的HTTP方法有GET、POST、PUT、DELETE。

2.统一资源定位符URL

URL是用来表示从因特网上得到的资源位置和访问这些资源的方法。

URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。URL相当于一个文件名在网络范围的扩展。

3.超文本标记语言HTML

HTML指的是超文本标记语言,是使用标记标签来描述网页的。HTML文档包含HTML标签和纯文本,也称为网页。

4.浏览器调试功能

学爬虫就是抓包,对请求和响应进行分析,用代码来模拟。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有