加载中…
个人资料
qxp1990
qxp1990
  • 博客等级:
  • 博客积分:0
  • 博客访问:1,527
  • 关注人气:3
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
评论
加载中…
留言
加载中…
图片播放器
友情链接
访客
加载中…
好友
加载中…
博文
置顶: (2018-03-29 17:18)
分类: 数据科学概论

教材

覃雄派,陈跃国,杜小勇. 《数据科学概论》.中国人民大学出版社. ISBN: 9787300252926.

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

前言

知识是有架构的,这就是所谓的知识体系。学习是有路线图的(对学生而言),对老师来讲就是教学计划。

 

《数据科学概论》的知识体系

数据科学概论,由理论部分和应用部分构成。形成两条线索,两个T型,如图所示。



理论部分,先由浅入深,再宽度展开,旨在培养学生宽广的视野,形成完整的知识体系。

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

    如何对服务器硬件和软件进行监控,一款优秀的监控软件是必需的,prometheus就是这样的一款监控软件。
    它支持大量的数据库、应用服务器的监控(通过...exporter,本质上是一个agent),当然prometheus也支持节点的监控,包括cpu/mem/disk/network的使用情况。
// --------------------------------------------------------------------------------
参考文献
https://www.digitalocean.com/community/tutorials/how-to-use-prometheus-to-monitor-your-ubuntu-14-04-server

// --------------------------------------------------------------------------------
下载地址
https://github.com/prometheus/prometh
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
// --------------------------------------------------------------------------------
(1)好多软件包,目前仅仅支持python 2.7。
所以,我们安装python 2.7,以便进行数据科学实验。

(2)有少量的软件包,目前仅仅支持python 3.5,比如tensorflow,那怎么办?
我们可以在python 2.7下建立一个python 3.5的环境env,然后激活它,安装必要的
软件包,就可以安装相关软件和进行实验了。

其它文章已经讲述(1)。
本文讲述(2)。
// --------------------------------------------------------------------------------
在anaconda python 2.7环境下,创建anaconda python 3.5环境(env)
    备注:目的是做些tensorflow的实验

    参考文献
    https://chrisconlan.com/installing-python-opencv-3-windows/

// --------------------------------------------------------------------------------
创建python 3.5环境,安装opencv

1,运行annaconda2(64bit)程序组的Anaconda Prompt
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
// ---------------------------------------------------------------------------------------
(1)好多软件包,目前仅仅支持python 2.7。
所以,我们安装python 2.7,以便进行数据科学实验。

(2)有少量的软件包,目前仅仅支持python 3.5,比如tensorflow,那怎么办?
我们可以在python 2.7下建立一个python 3.5的环境env,然后激活它,安装必要的
软件包,就可以安装相关软件和进行实验了。

本文讲述(1)。
另外的文章讲述(2)。
// ---------------------------------------------------------------------------------------
安装Anaconda python 2.7
        备注:Anaconda 是python的一个发布版,包含了常用的软件包,不用单独安装

1,去https://www.anaconda.com/download/
下载Anaconda2-5.1.0-Windows-x86_64.exe

2,安装Anaconda

3, 运行annaconda2(64bit)程序组的Anaconda Prompt
conda list
pip list
查看安装了什么软件包

在Anaconda Prompt下,运行如下
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

截至20184月份,“《数据科学概论》”教材(覃雄派、陈跃国、杜小勇编著)已经有9个实验参考上线,涉及分类、聚类、回归、关联规则、协同过滤、文本分析、社交网络等专题,新的实验参考也将于近期陆续上线。

感兴趣的老师和同学,可以到http://xiongpai.freecluster.eu/download.html网址下载。

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

    截至20184月份,“《数据科学概论》”教材(覃雄派、陈跃国、杜小勇编著)已经有8PPT上线,其它章节的PPT也将于近期陆续上线。

    感兴趣的老师和同学,可以到http://xiongpai.freecluster.eu/download.html网址下载。

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

新闻实体

    覃雄派、王会举、杜小勇、王珊2012年1月份发表在软件学报上的论文“大数据分析——RDBMS与MapReduce的竞争与共生”分别于2013年和2017年,获得2012年度和2014年度两次入选“领跑者5000—中国精品科技期刊顶尖学术论文” (证书于20184月颁发给作者)

链接信息

    该论文2011-09-09在线发表,至今在软件学报网站上累计下载18800次,在CNKI网站上累计下载20000次,引用超过630次。

    软件学报

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

参考资料

https://www.scipy-lectures.org/packages/scikit-learn/auto_examples/plot_tsne.html

http://colah.github.io/posts/2014-10-Visualizing-MNIST/


为什么要对数据进行降维

实际应用中的数据一般是高维的,比如手写的数字,如果我们缩放到28×28的图片大小,那么它的维度就是28×28=784维。

     下图是手写的1及其对应的图像二维矩阵,数据已经被规范化到[0,1]范围内。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

问题来由

      男生女生身高数据混合在一块了,现在要把他们分开。已经知道,两者都符合高斯分布,只是参数不同(均值、方差)

问题的解决

      使用EM算法。具体过程说明如下。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

中文版《数据科学》、《数据科学概论》、《数据科学导论》教材,市面上还不是很多。

大致可以分成3个流派,分别是数学统计学流派、档案情报流派、计算机数据库大数据流派,这三个流派及其典型代表如图所示。

(1)朝乐门.《数据科学》.清华大数据出版社.2016.08

(2)欧高炎,朱占星,董彬,鄂维南.《数据科学导引》.高教出版社. 2017.12

(3)覃雄派,陈跃国,杜小勇.《数据科学概论》.中国人民大学出版社. 2018.01

这三本教材分别在各自流派抢占了时间上的

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 不良信息反馈 电话:4006900000 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有