加载中…
个人资料
Stata连享会
Stata连享会
  • 博客等级:
  • 博客积分:0
  • 博客访问:37,804
  • 关注人气:21
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Python:批量爬取下载中国知网(CNKI)PDF论文

(2020-06-28 09:19:03)
分类: stata爬虫
原文链接:https://www.lianxh.cn/news/a27e2dd57f12e.html

目录

 

 


这篇文章介绍获取 PDF 格式的论文。

在知网页面的 html 中有下载链接,复制到搜索栏,确实是可以下载论文的,只需要获得作者,时间,题目以及下载链接就可以用循环结构批量下载论文。

当然前提是,您本来就可以下载论文,不管是用 VPN 还是校园网。

爬取网页后,只需要解析出来即可。我选择的方法是 正则搜索,虽然有点笨拙,但好在不管是什么信息,只要想搜索,总可以搜索到。

1. 总体思路

首先,获取源码,库:selenium,time ,用 webdriver 搜索按钮和输入栏,提交等等,遇到验证码手动输入即可,笔者输入了 8 次验证码,获取 6000 条论文
其次,从源码中解析出作者,时间,Title,下载链接,储存到 Excel 中留存,日后可能有用,用到 re,pandas
再次,利用 pandas,读取论文的链接,Title,用 requests 获取论文,利用 open 函数储存到 PDF 格式,在实践中发现,如果直接用解析的链接获取,下载得到的往往是 caj 格式文件,但是把 url 中的 ';' 换为 '&' 就可以正常下载 PDF 格式的文件了。 用到 re,pandas
有了总的思路,相信各位也可以自己写出定制的爬虫


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有