加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

Python:6小时爬完上交所和深交所的年报问询函

(2020-06-28 20:04:19)
分类: 爬虫-文本分析
原文链接:https://www.lianxh.cn/news/0e57c635cd225.html

目录

 

 


昨天开组会的时候导师说想搞年报问询函的研究,但是买数据库太贵了。我说放着我来 ( ′)ψ。

一、任务描述

  • 分别从上交所和深交所的官网上爬取年报问询函的记录

二、解决思路

  • 解析网页获取全部的年报问询函列表及相应的文件链接
  • 打开第一步获取的文件链接,读取 PDF 数据,并直接转成 TXT 格式的文字

主要参考链接

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」

  1. Python文件处理:递归批处理文件夹子目录内所有 txt 数据
  2. Python 爬虫怎么处理 json 内容
  3. Python3 在线读取 PDF


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有