加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

如何实现网页数据的抓取、整理与分析

(2015-11-03 22:12:25)
标签:

杂谈

数据分析师必备技能

我们在做数据分析时会发现,绝大多数的参照数据,都是从互联网上获得。而互联网上的原数据往往不尽如人意,难以满足我们的个性化需求,因此就需要我们根据实际,有针对性的进行抓取、整理与分析。我们可以这样说,互联网数据抓取与整理,是每一个数据分析人员的必会技能。

例如,我们制作的《2016年度目标制定评估模板》中2721家上市公司的5年营业额、营业成本、净利润数据,就是通过Excel的“自网站”功能抓取、整理并最终进行分析的。


  下面我们来聊聊如何利用Excel进行互联网数据的抓取、整理与分析:

1

数据抓取

想要抓取互联网数据,首先我们要确定哪个网站的数据最贴近我们的使用需求,选择一个合适的网站将使我们事半功倍。然后,我们可以通过如下功能,抓取页面数据:

如何实现网页数据的抓取、整理与分析
(注:不同版本,该功能“按钮”的位置可能略有不同,同时,这个抓取方法并不是适合所有网页,这同网页的编写语言和方法有关。)

如果要批量抓取多页数据,则需要通过调试VBA代码实现,具体方法可以通过网络了解,这里就不再赘述。

数据整理

从网站抓取的原数据,往往格式并非我们想要的,我们要对数据进行整理加工。例如:《2016年度目标制定评估模板》中我们抓取的数据格式如下,这不是我们想要的格式。因为抓取的数据量比较大,所以采用VBA是必须的。我们通过VBA代码将相应数值,不断写入到一个新Sheet中,最终形成了模板所需的上市公司经营数据。(具体方法可通过网络了解)

如何实现网页数据的抓取、整理与分析

数据分析

我们抓取的数据,不能不管三七二十一的直接使用,还需要对数据的可用性和逻辑进行判断分析。例如,模板数据在使用过程中,就遇到如下类似情况:

如何实现网页数据的抓取、整理与分析
假设上表中7家公司是一个小行业,A公司有重大变动,使得业绩呈现如此增长。如果我们采用平均增长率、或常用的用2015年营业额合计和2014年营业额合计来计算,则计算结果就完全被A公司左右,以此来代表此小行业的增长是不合理的,而采用中位数的增长则更为贴近实际情况。所以我们最终选定了行业中位数增长率,作为大家制定2016年度目标的行业参考。在此,普及一个Excel小知识,Excel计算中位数的函数格式为:

MEDIAN(计算中位数的数组),输出的结果即为该数组的中位数。

  以上我们通过《2016年度目标制定评估模板》的案例,谈了关于互联网数据抓取、整理和分析的问题。互联网数据抓取的方式有很多,不是仅此一种方法,如果掌握了互联网数据抓取的技术,将会使你在做数据分析时无往而不利,在数据的海洋中游刃有余。

  有关《2016年度目标制定评估模板》更详细资讯,可通过如下链接了解参考,或观看下方视频:

2016年度目标制定评估模板【超值版】

http://www.zhiliaobang.com/goods.php?id=39

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有