机器学习常见模型和算法简述
(2019-01-25 23:44:58)
标签:
机器学习模型算法统计方法 |
1、 回归(逻辑回归、岭回归等)
逐步回归的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
岭回归与Lasso回归的出现是为了解决线性回归出现的过拟合以及在通过正规方程方法求解θ的过程中出现的x转置乘以x不可逆这两类问题的,这两种回归均通过在损失函数中引入正则化项来达到目的。岭回归与Lasso回归最大的区别在于岭回归引入的是L2范数惩罚项,Lasso回归引入的是L1范数惩罚项。
2、决策树主要算法:ID3、C4.5、CART,分别基于信息增益、信息增益率和基尼系数构建决策树。
3、随机森林:随机选取n个变量生成树,每棵树的权重一样。
4、GBDT利用前一颗树的残差(实际值-拟合值),拟合出下一颗树;传统GBDT在优化时只用到一阶导数信息。
5、Adaboost的目标都是找到一个值(通过使得偏导数等零的方法)直接使得损失函数降低到最小。
6、XGBoost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数,XGBoost为防止过拟合,加入了正则项。每棵树的得分不同,累加结果作为预测值。
7、LightGBM里默认的训练决策树时使用直方图算法,直方图算法是一种牺牲了一定的切分准确性而换取训练速度以及节省内存空间消耗的算法。
8、聚类中k值确定偏主观。k近邻中k值确定:先定一个较小值,再采用交叉验证确定最终分类数量。
9、关联规则Apriori算法:
常用的频繁项集的评估标准有支持度,置信度和提升度三个。支持度就是几个关联的数据在数据集中出现的次数占总数据集的比重,或者说几个数据关联出现的概率。置信度体现了一个数据出现后,另一个数据出现的概率,或者说数据的条件概率。提升度表示含有Y的条件下,同时含有X的概率,与X总体发生的概率之比。
Apriori算法采用了迭代的方法,先搜索出候选1项集及对应的支持度,剪枝去掉低于支持度的1项集,得到频繁1项集。然后对剩下的频繁1项集进行连接,得到候选的频繁2项集,筛选去掉低于支持度的候选频繁2项集,得到真正的频繁二项集,以此类推,迭代下去,直到无法找到频繁k+1项集为止,对应的频繁k项集的集合即为算法的输出结果。
10、主成分分析(PCA):相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。
11、因子分析:把主成分分析中的载荷因子作为样本进行训练
12、时间序列:时间序列分析法是根据过去的变化趋势预测未来的发展,它的前提是假定事物的过去延续到未来。
加法模型:Y=T+S+C+I (Y,T 计量单位相同的总量指标)(S,C,I 对长期趋势产生的或正或负的偏差)
乘法模型:Y=T·S·C·I(常用模型) (Y,T 计量单位相同的总量指标)(S,C,I 对原数列指标增加或减少的百分比)
13、支持向量机(SVM)
支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括:
当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机;
当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机;
当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机。
14、朴素贝叶斯:文本挖掘用的较多,判定文本类型。
15、马氏链是指考察一个随机过程,若己知现在t的状态X(t),那么将来的状态X(t+n)取值(或取某些状态)的概率与过去状态X(s)(s)取值无关,或更简单的说,己知现在,将来与过去无关(条件独立),则称此性质为马尔可夫性(无后效性或简称马氏性)。
16、图论中最短路径主要算法:Dijkstra、Floyd、Bellman-Ford、SPFA
17、遗传算法适用于非常复杂和困难的环境,比如,带有大量噪声和无关数据、事物不断更新、问题目标不能明显和精确地定义,以及通过很长的执行过程才能确定当前行为的价值等。
18、排队论(queuing theory), 或称随机服务系统理论, 是通过对服务对象到来及服务时间的统计研究,得出这些数量指标(等待时间、排队长度、忙期长短等)的统计规律,然后根据这些规律来改进服务系统的结构或重新组织被服务对象,使得服务系统既能满足服务对象的需要,又能使机构的费用最经济或某些指标最优。
19、BP神经网络,是一种按照误差逆向传播算法训练的多层前馈神经网络。
20、LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
21、ReSNet提出残差学习的思想。传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失,损耗等问题,同时还有导致梯度消失或者梯度爆炸,导致很深的网络无法训练。ResNet在一定程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络只需要学习输入、输出差别的那一部分,简化学习目标和难度。
22、常见深度学习库:TensorFlow、PyTorch、Keras、MxNet