伦敦交通局正在利用数据科学来找出伦敦地铁列车和基础设施中断的原因并预测这些故障何时发生,从而提高其服务质量。
为了帮助伦敦交通局 (TfL) 实现“让伦敦保持运转”的口号,其所有列车、车站、信号、轨道和自动扶梯都需要每天运行。其中任何一个出现小问题都可能造成严重中断。
为了提高可靠性并降低维护成本,一个由三名数据科学家和一组可靠性分析师组成的团队一直在探索导致故障的原因以及如何缓解故障。
他们正在研究如何通过预测性维护降低成本并改善服务。目前在中央线进行的一项项目分析地下事件,以预测电机何时会失效。
“预计每年可节省约 300 万英镑,这是一笔非常可观的节省,因为这种故障的成本非常高,而且为了防止这种情况发生,已经进行了大量定期维护,”伦敦交通局的数据科学家 Akis Tsiotsios 解释道。人工智能大会。
保持旧地铁运行
该地铁于 1863 年开始在帕丁顿街和法灵顿街之间运行,成为世界上第一条地下铁路,该段现已成为环线、大都会线和汉默史密斯及城市线的一部分。
地铁网络仍然是世界上最繁忙的地铁网络之一。每天早上,538 趟列车在 270 个车站之间穿梭,今年预计地铁网络将运送 14 亿人次乘客,行程 8600 万公里,相当于往返月球 110 次。
维多利亚州的基础设施和沿途老化的车厢需要定期维护,以减少对这些旅程的干扰。
约有一半的延误都是由伦敦交通局的资产问题造成的。维护这些资产的成本占该机构预算的 59%。
外部因素也可能导致服务中断。在一个数据科学项目中,伦敦交通局通过寻找故障与温度、湿度和降雨之间的相关性,研究了天气状况如何影响车队的可靠性。
接下来阅读:西门子如何利用数据分析确保火车准时运行
该团队考虑使用一个汇总所有系统的故障概率模型,但最终决定,更有效的选择是确定各个子系统组件如何驱动不同的敏感性。
该分析得出的热图显示了每个因素对每个系统和组件的影响。
高温被发现是导致故障的主要原因。低温也产生了重大影响。
研究人员将这些反馈提供给利益相关者,以帮助他们做出有关维护和升级的决策。
他们的最终目标是找出所有资产故障的原因,以便进行预防性维护。
选择最佳数据分析模型
为了了解故障原因,该团队研究了 TfL 资产、故障、维护、服务运营和天气等外部问题的数据集。故障背后的因素包括温度、出发地点、利用率和维护率。
他们分析了每种情况对故障率的影响、基于故障发生频率的影响程度以及与之相关的故障成本。
“这让我们对不同因素的影响有了大致的了解,我们可以进行比较,以了解应该尝试减轻哪些影响,”Tsiotsios说。
挑战包括信息孤岛、数据缺失、由于TFL不断更新和续订其资产而导致的时间限制以及由于故障相对不频繁而导致的数据范围稀疏。
TfL 是一个依赖安全关键型应用程序的大型组织,因此数据科学团队需要与不同部门合作并执行有效的时间表。
“我们试图与我们的利益相关者保持密切的联系,因为每一个项目都涉及组织内很多不同的部门,我们对对员工的期望以及我们想要实现的目标都有一些时间表,”Tsiotsios 说道。
接下来阅读:英国电信如何利用数据分析减少工程师上门服务
工作人员做出的维护决策需要尽量减少故障和维护成本。
他们可以根据行驶里程或时间定期进行维护,但这样做很可能会导致过度维护而浪费金钱,或者维护不足而导致过多故障。
数据科学家认为,更好的选择是分析历史故障和维护数据,以确定故障概率。然后他们就可以找出可能的原因。
然后,他们可以评估故障的成本并决定其中多少是可以接受的,并设定一个固定的维护率。
该选项是一种改进,但仍然不是最佳的,因为某些故障无法避免,而许多故障本可以通过维护来避免。
Tsiotsios 表示:“我们想要做的是在特定资产即将失败之前独立维护每项资产。”
“我们正在讨论预测性维护,这里的问题是我们如何预测特定系统类型的故障何时发生。”
TfL 的预测性维护
通过分析已经收集的远程状况监测数据,伦敦交通局可以实现预测性维护。
一些 TfL 资产上的传感器持续监测其潜在状况并识别轨道上事件的发生时间。
此类事件有数百个,从关闭一扇门到火车以特定速度行驶。
“换句话说,故障前事件的模式应该与正常或健康运行期间事件的模式有显著不同。”
为了对所有这些数据进行建模,他们构建了一个可以区分这些不同模式的机器学习分类器。
然后,算法可以评估前几天或几小时内发生的事件的模式,并预测是否会发生故障。
机器学习模型应用于数据以预测是否会发生故障,预计即将发生故障的资产将显示在工程师的仪表板上。然后可以在故障发生之前停止使用相关资产并进行维护。
TfL 的数据科学项目
伦敦交通局正在进行一系列数据分析实验以改善地铁服务,其中包括前面提到的中央线项目。
该方法使用每天从制造商的状态监测系统下载到服务器上的数据。然后,算法评估过去五天的事件模式,并预测第二天是否可能发生故障。
他们还在维多利亚线上运行概念验证,通过异常检测预测门故障,并进行其他几个项目,分析传感器产生的信号以持续测量性能。
另一家数据科学企业支持伦敦交通局改善和监控其数据质量的总体努力。
接下来阅读:用于建模和部署机器学习和预测算法的最佳数据科学工具
TfL 的许多数据集都存在错误或缺失信息。数据科学团队正在使用自由文本字段来训练机器学习分类器,该分类器会分析文本中的模式以预测哪个组件发生故障。工程师可以在这些自由文本字段中输入有关故障症状和解决问题的详细信息。
到目前为止,该算法在识别组件时的准确率已被证明达到 75%。
任何被标记的组件都可以由专家进行检查。
Tsiotsios 表示:“我们的目标不是构建一个可以自动为我们填充数据的机器学习工具。我们不想用一个同样容易出错的工具取代我们工程师的领域知识。”
“我们希望构建一个质量保证工具来监控数据质量,以便自动检测何时记录了错误数据,并建立一个向输入团队提供反馈的流程,以便将来变得越来越好。”