基于GBDT的铁路事故类型预测及成因分析_Automation_2011

http://blog.sina.com.cn/u/1304706164

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

基于GBDT的铁路事故类型预测及成因分析

(2022-03-14 11:01:49)

引用本文

钟敏慧, 张婉露, 李有儒, 朱振峰, 赵耀. 基于 GBDT 的铁路事故类型预测及成因分析. 自动化学报, 2022, 48(2): 470−478 doi: 10.16383/j.aas.c190630

Zhong Min-Hui, Zhang Wan-Lu, Li You-Ru, Zhu Zhen-Feng, Zhao Yao. GBDT based railway accident type prediction and cause analysis. Acta Automatica Sinica, 2022, 48(2): 470−478 doi: 10.16383/j.aas.c190630

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190630?viewType=HTML

文章简介

关键词

事故类型预测, 缺失补全, GBDT, 集成学习, 成因分析

摘要

运用数据挖掘技术进行铁路事故类型预测及成因分析, 对于建立铁路事故预警机制具有重要意义. 为此, 本文提出一种基于梯度提升决策树(Grandient boosting decision tree, GBDT)的铁路事故类型预测及成因分析算法. 针对铁路事故记录数据缺失的问题, 提出一种基于属性分布概率的补全算法, 最大程度保持原有数据分布, 从而降低数据缺失对事故类型预测造成的影响. 针对铁路事故记录数据类别失衡的问题, 提出一种集成的GBDT模型, 完成对事故类型的鲁棒性预测. 在此基础上, 根据GBDT预测模型中特征重要度排序, 实现事故成因分析. 通过在开放数据库上进行实验, 验证了本文模型的有效性.

引言

近年来, 我国铁路事业高速发展, 在推动国民经济发展中发挥着至关重要的作用. 与此同时, 铁路安全问题也愈发受到重视. 在大数据时代, 如何利用铁路事故历史记录数据发掘有用信息, 建立事故预警机制, 对于推动铁路行业信息化, 提高运输效率, 防范安全隐患具有重要意义. 铁路事故类型预测和事故致因分析是建立事故预警机制的两个基础环节. 铁路事故预测利用历史事故记录估计和判断未来某种情况下是否会发生事故. 铁路事故成因分析通过分析事故发生时的客观环境与人为因素, 寻找造成事故的最可能原因, 从而采取针对性的预警防护手段. 因此, 利用铁路事故历史记录, 采用数据挖掘技术发掘其中有用信息, 进行铁路事故类型预测与成因分析具有重大现实意义.

铁路事故类型预测的本质是一个多分类问题. 常用的多分类模型有逻辑回归(Logistic regression, LR)、支持向量机(Support vector machine, SVM)和决策树(Decision tree, DT)等. 文献[4]利用决策树算法进行煤与瓦斯的突出预测. 然而, 这类分类器主要适用于简单、平衡的数据训练, 对于铁路事故记录这种复杂、类别失衡的高维数据, 训练较为困难, 且预测结果不够理想. 集成学习能够将多个模型集成以获取更好的预测结果, 对于不平衡数据的分类问题具有更好的有效性. 常用集成学习模型主要包括随机森林(Random forest, RF)和梯度提升决策树(Gradient boosting decision tree, GBDT). RF基于Bagging思想, 并行集成基学习器, 模型简单, 计算开销小; 而GBDT则是基于Gradient boosting思想, 对基学习器进行串行集成, 对数据拟合能力很强. 文献[10-13]分别使用以上模型进行预测.

铁路事故成因分析是对事故类型预测的反演. 常用的事故成因分析方法有复杂网络方法、灰色理论等. 文献[14]结合灰色综合关联度和信息熵, 利用熵分析事件不确定性的原理, 针对事故相关属性的重要度进行分析. 文献[15]运用多维关联规则提取技术找出事故成因关联规则. 上述事故成因分析方法对于值类别数较多的特征, 运算较复杂.

此外, 现有铁路事故记录数据存在严重的数据缺失问题, 在进行铁路事故类型预测和归因前, 首先需要对数据进行补全. 选择合适的补全方法对于提升预测结果的准确性有很大影响. 目前, 常用的补全方法主要包括均值填补法、最近距离填补法、回归填补法等. 然而, 前两种方法在某种程度上会影响样本状态分布, 导致预测结果的偏差; 回归填补法仅适用于连续特征, 对于离散特征并不适用.

针对上述问题, 本文提出了一种基于GBDT的铁路事故类型预测及成因分析算法. 首先, 针对铁路事故数据缺失问题, 提出了一种基于属性分布概率的补全算法, 该算法最大程度地保持了原有的数据结构, 从而降低数据缺失对于类型预测造成的影响. 其次, 提出了一种基于Bagging的集成GBDT模型, 针对类别失衡的铁路事故历史记录数据能够进行高效训练, 得到准确的事故类型预测结果. 同时, 结合统计学习理论, 根据GBDT预测模型中的特征重要度排序, 实现事故致因分析. 算法整体框架如图1所示. 通过在公开的铁路事故数据库上进行实验, 验证了本文所提算法的有效性.

图 1 基于GBDT的铁路事故类型预测及成因分析框架

图 2 三种补全方法结果对比

图 6 两类事故致因中不同因素的比例

作者简介

钟敏慧

北京交通大学信息科学研究所硕士研究生. 主要研究方向为计算机视觉, 机器学习.

E-mail: mhzhong@bjtu.edu.cn

张婉露

北京交通大学信息科学研究所硕士研究生. 主要研究方向为计算机视觉, 深度学习.

E-mail: wlzhang@bjtu.edu.cn

李有儒

北京交通大学信息科学研究所硕士研究生. 主要研究方向为数据挖掘, 机器学习.

E-mail: liyouru@bjtu.edu.cn

朱振峰

北京交通大学信息科学研究所教授. 2005年获中国科学院自动化研究所模式识别国家重点实验室工学博士学位. 主要研究方向为图像视频分析与理解, 计算机视觉, 机器学习. 本文通信作者.

E-mail: zhfzhu@bjtu.edu.cn

赵耀

北京交通大学信息科学研究所教授, 所长. 1996年获北京交通大学工学博士学位. 主要研究方向为图像与视频编码, 数字水印与取证, 视频分析及理解, 人工智能.

E-mail: yzhao@bjtu.edu.cn

相关文章

[1] 李慧芳, 黄姜杭, 徐光浩, 夏元清. 基于多维度特征融合的云工作流任务执行时间预测方法. 自动化学报.

http://www.aas.net.cn/cn/article/id/5c0f8248-128b-40e9-96f8-342ee9ab40da?viewType=HTML

[2] 陈蕾, 邵楷, 林腾涛, 陈兴国. 一种噪声容错弱监督矩阵补全的生存分析方法. 自动化学报, 2021, 47(12): 2801-2814. doi: 10.16383/j.aas.c190740

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190740?viewType=HTML

[3] 蒋胜臣, 王红斌, 余正涛, 线岩团, 王红涛. 基于关系指数和表示学习的领域集成实体链接. 自动化学报, 2021, 47(10): 2376-2385. doi: 10.16383/j.aas.c180705

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180705?viewType=HTML

[4] 刘卓, 汤健, 柴天佑, 余文. 基于多模态特征子集选择性集成建模的磨机负荷参数预测方法. 自动化学报, 2021, 47(8): 1921-1931. doi: 10.16383/j.aas.c190735

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190735?viewType=HTML

[5] 任俊超, 刘丁, 万银. 基于混合集成建模的硅单晶直径自适应非线性预测控制. 自动化学报, 2020, 46(5): 1004-1016. doi: 10.16383/j.aas.c190798

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190798?viewType=HTML

[6] 汤健, 柴天佑, 刘卓, 余文, 周晓杰. 基于更新样本智能识别算法的自适应集成建模. 自动化学报, 2016, 42(7): 1040-1052. doi: 10.16383/j.aas.2016.c150766

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150766?viewType=HTML

[7] 杜党波, 张伟, 胡昌华, 周志杰, 司小胜, 张建勋. 含缺失数据的小波-卡尔曼滤波故障预测方法. 自动化学报, 2014, 40(10): 2115-2125. doi: 10.3724/SP.J.1004.2014.02115

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.02115?viewType=HTML

[8] 汤健, 柴天佑, 丛秋梅, 苑明哲, 赵立杰, 刘卓, 余文. 基于EMD和选择性集成学习算法的磨机负荷参数软测量. 自动化学报, 2014, 40(9): 1853-1866. doi: 10.3724/SP.J.1004.2014.01853

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01853?viewType=HTML

[9] 付忠良. 多标签代价敏感分类集成学习算法. 自动化学报, 2014, 40(6): 1075-1085. doi: 10.3724/SP.J.1004.2014.01075

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.01075?viewType=HTML

[10] 杨春, 殷绪成, 郝红卫, 闫琰, 王志彬<. 基于差异性的分类器集成：有效性分析及优化集成. 自动化学报, 2014, 40(4): 660-674. doi: 10.3724/SP.J.1004.2014.00660

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2014.00660?viewType=HTML

[11] 曹莹, 苗启广, 刘家辰, 高琳. AdaBoost算法研究进展与展望. 自动化学报, 2013, 39(6): 745-758. doi: 10.3724/SP.J.1004.2013.00745

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2013.00745?viewType=HTML

[12] 葛俊锋, 罗予频. 非对称AdaBoost算法及其在目标检测中的应用. 自动化学报, 2009, 35(11): 1403-1409. doi: 10.3724/SP.J.1004.2009.1403

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.1403?viewType=HTML

[13] 张宇, 周志华. 基于集成的年龄估计方法. 自动化学报, 2008, 34(8): 997-1000. doi: 10.3724/SP.J.1004.2008.00997

http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2008.00997?viewType=HTML

[14] 吴敏, 徐辰华. 基于烟气温度场分布的烧穿点智能集成预测方法. 自动化学报, 2007, 33(12): 1313-1320. doi: 10.1360/aas-007-1313

http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-1313?viewType=HTML

[15] 谢胜利, 田森平, 谢振东. 基于向量图分析的迭代学习控制新算法. 自动化学报, 2004, 30(2): 161-168.

http://www.aas.net.cn/cn/article/id/16183?viewType=HTML

[16] 费越, 汪力新, 戴汝为. 竞争监督学习法在集成型识别系统中的应用. 自动化学报, 1999, 25(3): 303-308.

http://www.aas.net.cn/cn/article/id/16726?viewType=HTML

[17] 汪力新, 戴汝为. 反馈集成网络的动力学分析及其应用. 自动化学报, 1998, 24(6): 739-746.

http://www.aas.net.cn/cn/article/id/16796?viewType=HTML

[18] 喻明, 吴澄, 方崇智. 计算机集成制造系统(CIMS)的可靠性建模与分析. 自动化学报, 1994, 20(6): 728-733.

http://www.aas.net.cn/cn/article/id/14031?viewType=HTML

[19] 李月景. 利用模糊聚类分析自动识别汽车类型. 自动化学报, 1985, 11(2): 118-124.

http://www.aas.net.cn/cn/article/id/15243?viewType=HTML

[20] 鮑城志, 王钟琪, 周剑鳴, 邹揆南, 姚筱亦, 奚传錚. 动力系統事故分析和处理的逻輯控制. 自动化学报, 1964, 2(2): 119-122.

http://www.aas.net.cn/cn/article/id/17602?viewType=HTML

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：基于深度学习的抗年龄干扰人脸识别

后一篇：三层虚拟工作流模型的非线性制造工艺多目标优化算法研究

新浪BLOG意见反馈留言板　欢迎批评指正