加载中…
个人资料
黎明前的黑暗
黎明前的黑暗
  • 博客等级:
  • 博客积分:0
  • 博客访问:4,908
  • 关注人气:53
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
博文
标签:

主成分分析

数据分析

大数据分析

因子模型举例:主成分分析

我之前提到的因子风险主要包括经济的(知利率)、基本面的(如账面市值比率)和技术的(如前期收益率)。获得一个包含大童股票的投资组合因子风险的历史数据,并用于对因子模型进行回测,对于独立交易员来说是非常昂贵且不切实际的。不过,有一种因子模型,其构建只依核于历史收益率。这个方法叫做主成分分析(PCA)。

用主成分分

标签:

聚类分析

大数据分析

数据分析

数据挖掘

聚类分析聚类算法中包含哪些数据类型

许多基于内存的聚类算法采用以下两种数据结构:

(1)数据矩阵(Data Matrix,或称对象一变盘结构):用p个变量来表示n个对象,例如使用年龄、身高、性别、体重等属性变量来表示对象人,也叫二模矩阵,行与列代表不同实体:

标签:

机器学习

数据分析

大数据分析

数据挖掘

机器学习中几个常见模型的优缺点

朴素贝叶斯:优点:对小规模的数据表现很好,适合多分类任务,适合增量式训练。

缺点:对输入数据的表达形式很敏感(连续数据的处理方式)。

决策树:优点:计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征。缺点:容易过拟合(后续出现了随机森林,减

标签:

数据分析

大数据分析

数据挖掘

什么是支持向量机?支持向量机基本概念

SVM算法是一种学习机制,是由Vapnik提出的旨在改善传统神经网络学习方法的理论弱点,最先从最优分类面问题提出了支持向量机网络。SVM学习算法根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的泛化能力。SVM在形式上类似于多层前向网络,而且已被应用于模式识别、回归分析、数据挖掘等方面。

支持向量机这些特点是其他学习算法(如人工神经网络)所不及的。对于分类问题,单层前向网络可解决线性分类问题,多层前

标签:

大数据分析

数据分析

数据建模

数据挖掘

浅谈大数据在工程造价中的应用实践

数字化时代已经到来,大数据的浪潮即将湮没社会的每一个行业,那么,身为一名想要成为造价工程师的你是否了解大数据在工程造价中的影响呢?

http://www.cda.cn/uploadfile/image/20180730/20180730072045_41478.png

 

标签:

大数据分析

数据分析

数据建模

数据挖掘

生产管理中的数据分析

生产系统在大多数情况下是一个内向型的组织,相对比较封闭,无论是连续型生产模式还是离散型生产模式,都可以用类似的分析方法和思路。

生产制造过程大概分为四大类阶段,即传统生产、精益生产、数据化生产、智能生产。不同的阶段,数据分析能够发挥的作用也不同。

在传统生产阶段下,数据化程度

标签:

大数据分析

数据建模

数据挖掘

数据分析

Excel-箱线图(数据分布)分析

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。

1.什么是四分位数

 

标签:

数据挖掘

大数据分析

数据分析

数据挖掘的六大主要功能

数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”确切地说,数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能

标签:

r语言

大数据分析

数据分析

数据建模

R语言利用caret包比较ROC曲线

我们之前探讨了多种算法,每种算法都有优缺点,因而当我们针对具体问题去判断选择那种算法时,必须对不同的预测模型进行重做评估。为了简化这个过程,我们使用caret包来生成并比较不同的模型与性能。
操作
加载对应的包与将训练控制算法设置为10折交叉验证,重复次数为3:
library(ROCR)
library(e1071)
library('pROC')
library(caret)
library('pROC')
control = trainControl(method = 'repaetedcv',
                     &nbs

标签:

r语言

数据分析

数据建模

大数据分析

R语言评测回归模型的性能

通过计算预测值和实际值之间的差值大小可以评估回归模型预测性能的优劣,常用的误差评测标准包括均方根误差(root mean square error,RMSE),相对平方差(Relative Square Error,RSE)以及可决系数(R-Square).
操作
建立一个回归模型
library(car)
data(Quartet)
plot(Quartet$x,Quartet$y3)
lmfit = lm(Quartet$y3~Quartet$x)
abline(lmfit,col= 'red')
http://www.cda.cn/uploadfile/image/20180602/20180602070939_54324.png

  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有