Stata爬虫：爬取地区宏观数据_Stata连享会

http://blog.sina.com.cn/u/2327811412

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Stata爬虫：爬取地区宏观数据

(2021-08-14 20:50:16)

标签：

stata爬虫

分类： Stata编程

全文阅读：https://lianxh.cn/news/815b934b27073.html

1. 基本原理

网络爬虫就是自动抓取网页信息的代码，也可以简单理解成代替繁琐的复制粘贴操作的手段。如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物 (数据)。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的 HTML 代码爬到本地，进而提取自己需要的数据，存放起来使用，即请求网站并提取数据的自动化程序。

2. 基本步骤

Stata 进行网页表格爬取分为 3 个步骤：

网页分析：获取项目的源代码；
请求并读入：把含有所需数据的源代码下载下来，并导入 Stata；
处理数据：主要是对字符串进行处理，常用操作有分割 split、转置 sxpose、提取 (正则表达式或直接字符串提取) 等。

3. 爬虫案例

本文以爬取「地区宏观数据」中 “重庆市国内生产总值指数” 的数据为例，讲解如何使用 Stata 进行网页表格数据爬取。

全文阅读：https://lianxh.cn/news/815b934b27073.html

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：Stata爬虫：爬取Ａ股公司基本信息

后一篇：Stata数据处理：一文读懂微观数据库清理（下）

新浪BLOG意见反馈留言板　欢迎批评指正