加载中…
个人资料
waidiren
waidiren
  • 博客等级:
  • 博客积分:0
  • 博客访问:9,568
  • 关注人气:2
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

一个简单的爬虫小程序

(2018-10-23 11:12:59)
标签:

it

分类: python
1、运行cmd  输入 pip install requests  回车等待加载完毕;
2、运行cmd  输入 pip install lxml  回车等待加载完毕;
3、编写代码:
#!/usr/bin/env python3 
# -*- coding:utf-8 -*-

import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url)
tree=html.fromstring(page.text)
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据

print(result)
4、运行查看结果:
['网络谜踪', '沉默的教室', '花牌情缘:结', '少年泰坦出击电影版', '喜欢,轻吻,快跑', '私人生活', '人言可畏', '雪怪大冒险', '过境', '帝企鹅日记2:召唤']
这是从“豆瓣电影”网站上爬取的2018年10月23日的“一周排行榜”内容。

5、程序设计步骤:
(1)用google chrome打开网站:https://movie.douban.com/然后按一下F12;
(2)鼠标点击下图中的按钮:
一个简单的爬虫小程序
(3)鼠标点击需要爬取的数据,这里我们点“网络迷踪”,如下图所示:
一个简单的爬虫小程序
(4)
看到大红色框框里的东西,是不是和我们最“重要”的代码有很多相似的地方。 
再看来最后一行代码中最“重要”的部分。 
‘//td[@class=”title”]//a/text()’ 
//td :这个相当于指定是大目录;
[@class=”title”]:这个相当于指定的小目录;
//a :这个相当于最小的目录;
/text():这个是提取其中的数据。
爬虫介绍结束,看完你也该试试手了。
--------------------- 
作者:a_achengsong 
来源:CSDN 
原文:https://blog.csdn.net/csqazwsxedc/article/details/68498842 

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有