Python:6小时爬完上交所和深交所的年报问询函_Stata连享会_新浪博客

新浪博客

加载中…

http://blog.sina.com.cn/u/2327811412

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Python:6小时爬完上交所和深交所的年报问询函

(2020-06-28 20:04:19)

分类：爬虫-文本分析

原文链接：https://www.lianxh.cn/news/0e57c635cd225.html

目录

昨天开组会的时候导师说想搞年报问询函的研究，但是买数据库太贵了。我说放着我来 ( ′)ψ。

一、任务描述

分别从上交所和深交所的官网上爬取年报问询函的记录

二、解决思路

解析网页获取全部的年报问询函列表及相应的文件链接
打开第一步获取的文件链接，读取 PDF 数据，并直接转成 TXT 格式的文字

主要参考链接

温馨提示： 文中链接在微信中无法生效。请点击底部「阅读原文」

原文链接：https://www.lianxh.cn/news/0e57c635cd225.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Python爬虫:《经济研究》研究热点和主题分析

后一篇：Stata:获取分组回归系数的三种方式

新浪BLOG意见反馈留言板　欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2022 SINA Corporation, All Rights Reserved

新浪公司版权所有