Python:批量爬取下载中国知网(CNKI)PDF论文_Stata连享会_新浪博客

新浪博客

加载中…

http://blog.sina.com.cn/u/2327811412

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Python:批量爬取下载中国知网(CNKI)PDF论文

(2020-06-28 09:19:03)

分类： stata爬虫

原文链接：https://www.lianxh.cn/news/a27e2dd57f12e.html

目录

这篇文章介绍获取 PDF 格式的论文。

在知网页面的 html 中有下载链接，复制到搜索栏，确实是可以下载论文的，只需要获得作者，时间，题目以及下载链接就可以用循环结构批量下载论文。

当然前提是，您本来就可以下载论文，不管是用 VPN 还是校园网。

爬取网页后，只需要解析出来即可。我选择的方法是 正则搜索，虽然有点笨拙，但好在不管是什么信息，只要想搜索，总可以搜索到。

1. 总体思路

首先，获取源码，库：selenium，time ,用 webdriver 搜索按钮和输入栏，提交等等，遇到验证码手动输入即可，笔者输入了 8 次验证码，获取 6000 条论文
其次，从源码中解析出作者，时间，Title，下载链接，储存到 Excel 中留存，日后可能有用，用到 re，pandas
再次，利用 pandas，读取论文的链接，Title，用 requests 获取论文，利用 open 函数储存到 PDF 格式，在实践中发现，如果直接用解析的链接获取，下载得到的往往是 caj 格式文件，但是把 url 中的 ';' 换为 '&' 就可以正常下载 PDF 格式的文件了。用到 re，pandas
有了总的思路，相信各位也可以自己写出定制的爬虫

原文链接：https://www.lianxh.cn/news/a27e2dd57f12e.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Stata:生存分析一文读懂

后一篇：赶尽杀绝：Stata中文乱码之转码

新浪BLOG意见反馈留言板　欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2022 SINA Corporation, All Rights Reserved

新浪公司版权所有