伦敦交通局正在利用数据科学来确定伦敦地铁列车和基础设施中断的原因并预测这些故障何时出现,从而提高其服务质量。
为了帮助伦敦交通局 (TfL) 践行“让伦敦永不停歇”的口号,其所有火车、车站、信号灯、轨道和自动扶梯都需要每天运行。其中任何一个的小问题都可能造成大的破坏。
为了提高可靠性并降低维护成本,由三名数据科学家和一组可靠性分析师组成的团队一直在探索导致故障的原因以及如何减轻故障。
他们正在研究预测性维护如何降低成本并改善服务。中央线目前正在生产的一个项目分析地下事件,以预测电机何时即将发生故障。
伦敦交通局数据科学家 Akis Tsiotsios 在人工智能大会。
保持旧地铁运行
该地铁于 1863 年开始在帕丁顿街 (Paddington Street) 和法灵顿街 (Farringdon Street) 之间运行,成为世界上第一条地下铁路,该路段现已成为环线 (Circle)、大都会线 (Metropolitan) 和哈默史密斯及城市线 (Hammersmith & City Line) 的一部分。
它仍然是世界上最繁忙的地铁网络之一。每天早上,538 趟列车在 270 个车站之间运行,预计今年该网络的总行程将达到 14 亿趟,覆盖 8600 万公里,相当于 110 次月球往返。
维多利亚时代的基础设施和沿途老化的车厢需要定期维护,以限制对这些旅程的干扰。
大约一半的延误是由伦敦交通局资产问题造成的。维护它们的费用占机构预算的 59%。
外部因素也可能导致服务中断。在一项数据科学项目中,伦敦交通局通过查找故障与温度、湿度和降雨之间的相关性,研究了天气条件如何影响车队可靠性。
接下来阅读:西门子如何利用数据分析使火车准点运行
该团队考虑使用聚合所有系统的故障概率模型,但认为更强大的选择是确定各个子系统组件如何驱动不同的敏感性。
该分析产生了一个热图,表明每个因素对每个系统和组件的影响。
人们发现高温是故障的主要原因。低温也产生了重大影响。
研究人员向利益相关者提供了这些反馈,以帮助他们做出有关维护和升级的决策。
他们的最终目标是确定导致资产所有故障的原因,以便进行预防性维护。
选择最佳的数据分析模型
为了了解故障原因,该团队研究了伦敦交通局资产、故障、维护、服务运营和天气等外部问题的数据集。造成故障的因素包括温度、出发地点、利用率和维修率。
他们分析了每种情况对故障率的影响、基于故障发生频率的影响级别以及与之相关的故障成本。
“这让我们对不同因素的影响有了一个概览,我们可以比较这些影响,以便了解我们应该努力减轻哪些影响,”Tsiotsios 说。
挑战包括信息孤岛、数据缺失、由于 TFL 不断更新和更新其资产而导致的时间限制以及由于故障相对较少而导致的数据范围稀疏。
伦敦交通局是一个依赖安全关键型应用程序的大型组织,因此数据科学团队需要与不同部门协作并执行有效的时间表。
“我们努力与利益相关者进行密切接触,因为每个项目都[涉及]组织内的许多不同部门,而且我们对员工的期望以及我们想要实现的目标制定了一些时间表,”Tsiotsios 说道。
接下来阅读:英国电信如何利用数据分析来减少工程师的出动
工作人员做出的维护决策需要最大限度地减少故障和维护成本。
他们可以根据里程或经过的时间定期进行维护,但这最终可能会因为过度维护资产而浪费金钱,或者因为维护不足而导致太多故障。
数据科学家认为更好的选择是分析历史故障和维护数据来确定故障概率。然后他们可以找出可能的原因。
然后,他们可以评估故障的成本,并确定其中有多少是可以接受的,并设定固定的维护率。
此选项是一种改进,但仍然不是最佳选择,因为某些故障无法避免,而其中许多故障本来可以通过维护来避免。
“我们想要做的是在特定资产即将发生故障之前独立维护每项资产,”Tsiotsios 说。
“我们谈论的是预测性维护,这里的问题是我们如何预测特定系统类型何时将发生故障。”
TfL 的预测性维护
TfL 可以通过分析机构已经收集的远程状态监测数据来实现预测性维护。
一些伦敦交通局资产上的传感器持续监控其基本状况并识别赛道上何时发生事件。
此类事件有数百个,从门关闭到火车以一定速度行驶。
例如,如果一扇门出现故障,在故障发生之前就会出现一些症状。
接下来阅读:2018 年数据和人工智能趋势
“这里的想法是,失败之前的事件模式应该反映这些症状,”齐奥齐奥斯说。
“换句话来说,故障之前的事件模式应该与正常或健康运行期间的事件模式显着不同。”
为了对所有这些数据进行建模,他们构建了一个机器学习分类器,可以区分这些不同的模式。
然后,算法可以评估前几天或前几小时内发生的事件模式,并预测故障是否即将发生。
机器学习模型应用于数据来预测故障是否即将发生,预计将发生故障的资产很快就会出现在工程师的仪表板上。然后,可以在故障出现之前停止使用相关资产并对其进行维护。
TfL 的数据科学项目
伦敦交通局正在开展多项数据分析实验,以改善地铁服务,包括前面提到的中央线项目。
这使用每天从制造商的状态监测系统下载到服务器的数据。然后,算法评估过去五天的事件模式,并预测第二天是否可能发生故障。
他们还在维多利亚线上运行了一个概念验证,通过异常检测来预测门故障,以及其他几个项目,分析传感器生成的信号以连续测量性能。
另一个数据科学企业支持伦敦交通局改善和监控其数据质量的总体努力。
接下来阅读:用于建模和部署机器学习和预测算法的最佳数据科学工具
伦敦交通局的许多数据集都有不正确或缺失的信息。数据科学团队正在使用自由文本字段,工程师在其中输入有关故障症状以及解决这些问题所采取的操作的详细信息,以训练机器学习分类器,该分类器分析文本中的模式以预测哪个组件发生故障。
到目前为止,该算法在识别组件时已被证明准确率为 75%。
任何被标记的组件都可以由专家进行检查。
“我们的目标不是构建一个自动为我们填充数据的机器学习工具,”Tsiotsios 说。 “我们不想用同样容易出错的工具来取代工程师的领域知识。
“我们希望构建一个质量保证工具来监控数据质量,自动检测何时记录了错误的数据,并建立一个向输入团队提供反馈的流程,以便将来变得越来越好。”
