Python:批量爬取下载中国知网(CNKI)PDF论文
(2020-06-28 09:19:03)分类: stata爬虫 |
原文链接:https://www.lianxh.cn/news/a27e2dd57f12e.html
目录
这篇文章介绍获取 PDF 格式的论文。
在知网页面的 html 中有下载链接,复制到搜索栏,确实是可以下载论文的,只需要获得作者,时间,题目以及下载链接就可以用循环结构批量下载论文。
当然前提是,您本来就可以下载论文,不管是用 VPN 还是校园网。
爬取网页后,只需要解析出来即可。我选择的方法是
1. 总体思路
首先,获取源码,库:selenium,time ,用 webdriver
搜索按钮和输入栏,提交等等,遇到验证码手动输入即可,笔者输入了 8 次验证码,获取 6000 条论文
其次,从源码中解析出作者,时间,Title,下载链接,储存到 Excel 中留存,日后可能有用,用到
re,pandas
再次,利用 pandas,读取论文的链接,Title,用 requests 获取论文,利用 open
函数储存到 PDF 格式,在实践中发现,如果直接用解析的链接获取,下载得到的往往是 caj 格式文件,但是把 url
中的
有了总的思路,相信各位也可以自己写出定制的爬虫
前一篇:Stata:生存分析一文读懂