基于GBDT的铁路事故类型预测及成因分析

引用本文
钟敏慧, 张婉露, 李有儒, 朱振峰, 赵耀. 基于 GBDT
的铁路事故类型预测及成因分析. 自动化学报, 2022,
Zhong Min-Hui, Zhang Wan-Lu, Li
You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type
prediction and cause analysis. Acta Automatica Sinica,
2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190630?viewType=HTML
文章简介
关键词
事故类型预测, 缺失补全, GBDT, 集成学习, 成因分析
摘
运用数据挖掘技术进行铁路事故类型预测及成因分析, 对于建立铁路事故预警机制具有重要意义. 为此, 本文提出一种基于梯度提升决策树(Grandient boosting decision tree, GBDT)的铁路事故类型预测及成因分析算法. 针对铁路事故记录数据缺失的问题, 提出一种基于属性分布概率的补全算法, 最大程度保持原有数据分布, 从而降低数据缺失对事故类型预测造成的影响. 针对铁路事故记录数据类别失衡的问题, 提出一种集成的GBDT模型, 完成对事故类型的鲁棒性预测. 在此基础上, 根据GBDT预测模型中特征重要度排序, 实现事故成因分析. 通过在开放数据库上进行实验, 验证了本文模型的有效性.
引
近年来, 我国铁路事业高速发展, 在推动国民经济发展中发挥着至关重要的作用. 与此同时, 铁路安全问题也愈发受到重视. 在大数据时代, 如何利用铁路事故历史记录数据发掘有用信息, 建立事故预警机制, 对于推动铁路行业信息化, 提高运输效率, 防范安全隐患具有重要意义. 铁路事故类型预测和事故致因分析是建立事故预警机制的两个基础环节. 铁路事故预测利用历史事故记录估计和判断未来某种情况下是否会发生事故. 铁路事故成因分析通过分析事故发生时的客观环境与人为因素, 寻找造成事故的最可能原因, 从而采取针对性的预警防护手段. 因此, 利用铁路事故历史记录, 采用数据挖掘技术发掘其中有用信息, 进行铁路事故类型预测与成因分析具有重大现实意义.
铁路事故类型预测的本质是一个多分类问题. 常用的多分类模型有逻辑回归(Logistic regression, LR)、支持向量机(Support vector machine, SVM)和决策树(Decision tree, DT)等. 文献[4]利用决策树算法进行煤与瓦斯的突出预测. 然而, 这类分类器主要适用于简单、平衡的数据训练, 对于铁路事故记录这种复杂、类别失衡的高维数据, 训练较为困难, 且预测结果不够理想. 集成学习能够将多个模型集成以获取更好的预测结果, 对于不平衡数据的分类问题具有更好的有效性. 常用集成学习模型主要包括随机森林(Random forest, RF)和梯度提升决策树(Gradient boosting decision tree, GBDT). RF基于Bagging思想, 并行集成基学习器, 模型简单, 计算开销小; 而GBDT则是基于Gradient boosting思想, 对基学习器进行串行集成, 对数据拟合能力很强. 文献[10-13]分别使用以上模型进行预测.
铁路事故成因分析是对事故类型预测的反演. 常用的事故成因分析方法有复杂网络方法、灰色理论等. 文献[14]结合灰色综合关联度和信息熵, 利用熵分析事件不确定性的原理, 针对事故相关属性的重要度进行分析. 文献[15]运用多维关联规则提取技术找出事故成因关联规则. 上述事故成因分析方法对于值类别数较多的特征, 运算较复杂.
此外, 现有铁路事故记录数据存在严重的数据缺失问题, 在进行铁路事故类型预测和归因前, 首先需要对数据进行补全. 选择合适的补全方法对于提升预测结果的准确性有很大影响. 目前, 常用的补全方法主要包括均值填补法、最近距离填补法、回归填补法等. 然而, 前两种方法在某种程度上会影响样本状态分布, 导致预测结果的偏差; 回归填补法仅适用于连续特征, 对于离散特征并不适用.
针对上述问题, 本文提出了一种基于GBDT的铁路事故类型预测及成因分析算法. 首先, 针对铁路事故数据缺失问题, 提出了一种基于属性分布概率的补全算法, 该算法最大程度地保持了原有的数据结构, 从而降低数据缺失对于类型预测造成的影响. 其次, 提出了一种基于Bagging的集成GBDT模型, 针对类别失衡的铁路事故历史记录数据能够进行高效训练, 得到准确的事故类型预测结果. 同时, 结合统计学习理论, 根据GBDT预测模型中的特征重要度排序, 实现事故致因分析. 算法整体框架如图1所示. 通过在公开的铁路事故数据库上进行实验, 验证了本文所提算法的有效性.

图

图

图
作者简介
钟敏慧
北京交通大学信息科学研究所硕士研究生. 主要研究方向为计算机视觉, 机器学习.
E-mail: mhzhong@bjtu.edu.cn
张婉露
北京交通大学信息科学研究所硕士研究生. 主要研究方向为计算机视觉, 深度学习.
E-mail: wlzhang@bjtu.edu.cn
李有儒
北京交通大学信息科学研究所硕士研究生. 主要研究方向为数据挖掘, 机器学习.
E-mail: liyouru@bjtu.edu.cn
朱振峰
北京交通大学信息科学研究所教授. 2005年获中国科学院自动化研究所模式识别国家重点实验室工学博士学位. 主要研究方向为图像视频分析与理解, 计算机视觉, 机器学习. 本文通信作者.
E-mail: zhfzhu@bjtu.edu.cn
赵
北京交通大学信息科学研究所教授, 所长. 1996年获北京交通大学工学博士学位. 主要研究方向为图像与视频编码, 数字水印与取证, 视频分析及理解, 人工智能.
E-mail: yzhao@bjtu.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/id/5c0f8248-128b-40e9-96f8-342ee9ab40da?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190740?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180705?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190735?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190798?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150766?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02115?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01853?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01075?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00660?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00745?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.1403?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00997?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1313?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/id/16183?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/id/16726?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/id/16796?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/id/14031?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/id/15243?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/id/17602?viewType=HTML