Python:6小时爬完上交所和深交所的年报问询函
(2020-06-28 20:04:19)分类: 爬虫-文本分析 |
原文链接:https://www.lianxh.cn/news/0e57c635cd225.html
目录
昨天开组会的时候导师说想搞年报问询函的研究,但是买数据库太贵了。我说放着我来 ( ′)ψ。
一、任务描述
- 分别从上交所和深交所的官网上爬取年报问询函的记录
二、解决思路
- 解析网页获取全部的年报问询函列表及相应的文件链接
- 打开第一步获取的文件链接,读取 PDF 数据,并直接转成 TXT 格式的文字
主要参考链接
温馨提示: