同样是大数据竞赛,为什么在工业界要加「创新」二字?

2019-08-15  |  作者:天泽智云  |  来源:天泽智云  |  浏览:

天泽智云真诚地希望更多有识之士投身到工业智能领域中来,和我们一起探索智能化技术在工业领域的落地和应用,共同推动我国工业的高质量发展。

2009年李飞飞博士发表ImageNet,大量的数据被释放,并将人们的思维范式逐渐从关注模型算法引向了关注数据级本身。大数据竞赛作为“物色”数据科学领域优秀人才的储备站,以及为某一领域/应用场景提供突破性解决方案的有效途径而层出不穷。

工业界也不例外,2017年起工信部发力工业大数据领域,举办“工业大数据创新竞赛”,首届就吸引了1535人参赛,在今年刚刚落幕的第三届更是吸引了超过1500支国内与国际的参赛队伍。天泽智云作为技术支持方,在金超博士、晋文静博士等专家的指导下,连续三届为比赛提供全程支持。
 
工业大数据创新竞赛现场天泽智云接受媒体采访
 
但是为什么要在“工业大数据”与“竞赛”之间加“创新”二字,小编邀请到了为第三届竞赛提供全程支持的小伙伴,来和大家来讲讲我们的理解。
 

打破专家定论——新方法解决老问题


Q:本次竞赛为什么选择“转子部件脱落故障预测”作为赛题?
 
旋转类机械设备的故障诊断问题在实际的工业场景中非常常见,转子部件脱落其实更是一个老问题,据了解,比赛数据提供方沈鼓负责人曾在阿尔斯通的时候就遇到过这个问题,并就该问题与欧美专家进行讨论,当时的结论是不可能通过传感器的信号预测出故障。
 
所以将它作为赛题也是希望可以集思广益,大家一起来探索看有没有新的方法来解决该问题。让人惊喜的是,在比赛中我们看到了非常多优秀的选手和解决方案,用不同的方法实现转子部件脱落的故障预测,打破了当时专家的定论。
 
Q:参赛选手都用到了什么方法来进行故障预测?
 
整体而言,这次参赛选手的解题思路主要包含以下三个方向:
 
机理驱动——单纯的从旋转设备的机理,用人工的方式来做诊断,不涉及太多的模型,决赛答辩的韩国选手就选用的是该方法。
 
机理+数据——融合数据和机理,对模型进行选择、调优,达到最终的预测,决赛冠军方案就是用这种方法,进入决赛的大约三分之二的团队都是将机理和数据做了深度的融合,这也是我们工业中目前最常用的方法。
 
数据驱动——其中有一组选手并没有从机理上去挖掘更多的特征,而是使用了生成对抗网络的方法(这种方法以往更多应用在图像领域),将图像的网络结构放在了工业的振动数据上进行分析。
 

打破固有思维——工业领域是否对于进入深度时代的标准过于严苛?


Q:其中有哪些选手/方法是你们觉得印象特别深刻的?
 
每一组参赛选手都非常优秀,印象深刻的解决方案也有很多。但是相对而言最为深刻的是用生成对抗网络方法来做竞赛的选手,他们是唯一一组在故障机台的诊断获得满分的选手,用纯数据驱动的方法击败了其他的基于机理以及机理结合数据的方法,打破了我们以往对于深度学习在工业领域应用受限的看法。
 
我们知道,深度学习本身是数据饥饿的,纯数据模型泛化性差,而工业场景中的数据量、数据质量、数据标签等都相对缺乏,所以通常我们一般都认为深度学习模型在工业领域中不能很好地发挥它应有的价值,目前的很多结论都认为工业不太适合进入深度时代。
 
但是这组选手用生成对抗网络的方法,将很多应用到图像领域的技巧用在了工业问题的解决上,而且没有受到题目中设计的干扰故障的干扰,非常优秀的完成了故障的判断。
 
虽然这样的模型目前来看是一个黑箱,可解释性也不是很强,甚至是否是一次偶然也无法判断,但它为我们打开了一个新的思路,同时也让我们思考——工业领域是否对于进入深度时代的标准过于严苛,深度学习等方法没有发挥太好的作用是否是因为不够创新。

Q:参赛选手解题思路对于个人的工作而言有哪些借鉴意义/收获?
 
在整个比赛过程中有非常多的收获和体验,如果聚焦到解题思路的话,其中非常重要的一点是打破了我们在做数据分析时的一些固有思维。
 
比如比赛中选手用到的生成对抗网络的方法,我们之前一直认为这种方法对于数据的构造要求比较严格,距离工业数据分析还有很远的距离,但是在比赛中我们看到已经有选手通过这种方法取得了非常不错的成绩。
 
另外还有一组选手用到了时间序列的处理方式,通过将DTW和L2距离计算相结合来进行故障诊断。这个方法我们有小伙伴之前在项目里也用到过,但是他在使用过程中是先进行对齐再去计算距离,而我们用这个方法是直接计算它们的相似度。这些由使用细节上的一些区别形成的分析方向的差异,也是值得我们未来探讨以及思考的一个点。
 

提升传统标配——耐心&热情


Q:综合比赛以及结合个人的经验,大家认为工业数据分析师需要具备哪些素质?
 
作为数据分析师,从工作技能的角度而言可能所有行业都相差不大,都是从数据中找规律,需要具备算法能力,需要面对新算法为行业带来的机遇和挑战。
 
但是在工业领域有所区别的是对于领域知识的要求,工业大数据分析需要有丰富的领域知识支撑/辅助算法更好地运行,天泽智云的很多算法小伙伴是工科专业背景出身,这些机械知识为算法的设计提供了很多的输入。
 
此外,还有两点虽然和硬性工作技能无关,但我们认为也是扎根工业领域做数据分析所需具备的关键要素——耐心和热情。
 
耐心。与互联网数据不同,工业数据有很多的局限性——碎片化、质量差、背景性强,数据分析师可能每天都面临着数据量不足或者没有足够标签的情况,长时间面对这样的数据很容易心生厌倦。所以在工业领域做数据分析保持一个良好的耐心至关重要,它可以帮助分析师更有效地在有限的数据条件下挖掘特征,提高算法能力。
 
热情。工业已经有几百年的发展历史,在此进程中涌现出了非常多的新方法和技术,这就要求我们要时刻保持学习热情,时刻保持对工业、对新知识的热情,经常更新我们的知识库与认知,从而能够用更优的方法完成数据分析,帮助工业企业解决痛点问题,为推进工业智能化进程贡献自己的一份微薄之力。
 

 

我们认为工业大数据创新竞赛的“创新”不仅体现在对选手的解题思路的要求上,体现在为工业智能领域人才池贡献新鲜血液的途径上,更重要的是通过竞赛能能够将工业领域/对工业大数据领域感兴趣的有识之士聚集在一起,以解决实际工业问题为出发点进行头脑风暴,为工业大数据及工业智能化的落地提供更多创新性/突破性的参考方向和解决方案。
 
说在最后,天泽智云真诚地希望更多有识之士投身到工业智能领域中来,和我们一起探索智能化技术在工业领域的落地和应用,共同推动我国工业的高质量发展。
 

推荐文章