工业大数据分析指南doc.docx
- 文档编号:3320844
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:13
- 大小:28.38KB
工业大数据分析指南doc.docx
《工业大数据分析指南doc.docx》由会员分享,可在线阅读,更多相关《工业大数据分析指南doc.docx(13页珍藏版)》请在冰豆网上搜索。
工业大数据分析指南doc
工业大数据分析指南()
工业大数据分析指南工业大数据分析指南I序言序言如今,全球掀起了以制造业转型升级为首要任务的新一轮工业变革,工业大数据作为引领这场变革的主要驱动力,已经成为当今工业领域的热点之一。
新一代信息技术与制造业的深度融合,将促进工业领域的服务转型和产品升级,重塑全球制造业的产业格局。
为紧紧抓住这一重大历史机遇,抢占制造业新一轮竞争制高点,党中央高度重视并作出长期性、战略性部署。
党的十九大报告指出,要“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合”。
工业大数据是智能制造的核心,以“大数据+工业互联网”为基础,用云计算、大数据、物联网、人工智能等技术引领工业生产方式的变革,拉动工业经济的创新发展。
工业大数据分析技术作为工业大数据的核心技术之一,可使工业大数据产品具备海量数据的挖掘能力、多源数据的集成能力、多类型知识的建模能力、多业务场景的分析能力、多领域知识的发掘能力等,对驱动企业业务创新和转型升级具有重大的作用。
可以从以下三个方面来理解。
首先,资源优化是分析的目标。
企业之间竞争的本质是资源配置效率的竞争,优化资源配置效率是企业技术创新应用的主要动力,也是工业大数据分析的核心目标。
工业大数据分析是实现新一代信息技术与制造业融合的重要技术支撑,其目的是不断优化资源的配置效率,实现生产全过程的可视化、高端定制化生产、产品生产节能增效、供工业大数据分析指南II应链配置优化、企业智能化管理等,达到提升质量、降低成本、灵活生产、提高满意度等目的,促进制造业全要素生产率的提高。
其次,数据建模是分析的关键。
来源于产品生命周期的各个环节中的海量数据,为工业大数据分析提供了前提和基础,而海量的工业数据如果不经过清洗、加工和建模等处理是无法直接应用于实际的业务场景。
工业大数据分析通过模型来描述对象,构建复杂工业过程与知识之间的映射,实现知识清晰化、准确化的表达。
最后,知识转化是分析的核心。
确定性和稳定性是工业应用的两个基本特点,这就决定了工业大数据分析技术就是感知信息和提炼知识,其核心在于如何把海量数据转化为信息,信息转化为知识,知识转化为决策,以应对和解决制造过程的复杂性和不确定性等问题。
《工业大数据分析指南》是在新形势下对工业大数据分析关键共性问题进行的辨识、抽象和提升,适应当前工业大数据的应用需求和技术变革,具有较为广泛的通用性和相对普遍的指导意义,适于工业领域内的企业、机构的研究和参考。
希望通过与业界的分享,共同推动工业大数据开发利用和应用推广,为制造强国和网络强国建设添薪助力!
谢少锋工业大数据分析指南III编写说明编写说明工业大数据是工业领域相关数据集的总称,是工业互联网的核心,是智能制造的关键。
工业大数据分析技术作为工业大数据的核心技术之一,是工业智能化发展的重要基础和关键支撑。
为此,在工业互联网产业联盟的指导下,工业大数据特设组主持编写了这本《工业大数据分析指南》。
本书旨在对通用的工业大数据分析方法和分析流程进行归纳总结,对其关键共性进行辨识、抽象和提升,而非针对某一特定行业、企业或产品进行阐述。
本书更加关注于方法论而非某些具体的技术,因此具有更加广泛的通用性和相对普遍的指导意义。
本书共分为9章,第1章首先论述了工业大数据分析的概念、特殊性以及常见的问题;第2章提出了工业大数据分析框架,简要介绍了CRISP-DM模型,并针对模型落地的难点和模型使用的指导思想展开讨论;从第3章到第8章,依次对业务理解、数据理解、数据准备、数据建模、模型验证与评估、模型部署这6个CRISP-DM模型的基本步骤进行了详细的阐述,从需求分析到目标评估,从数据来源到数据分类,从数据预处理到建模过程,从模型验证到部署问题处理,对每一个步骤中的原理方法、分析过程、处理方式、问题排除等都一一进行了讲解和说明;最后,第9章对工业大数据分析的未来发展进行了展望。
本书由工业大数据特设组组长单位清华大学牵头编写,在编写过程中得到了工信部领导的悉心指导和相关单位的有力支撑。
特别感谢工业大数据分析指南IV清华大学孙家广院士、工信部信软司谢少锋司长等给予的全面指导。
同时,北京工业大数据创新中心的李三华、田春华,清华大学的任艮全、徐哲、强逍等在本书的编写阶段也给予了无私的帮助,在此表示诚挚的谢意。
工业大数据作为新兴概念,其数据分析的原则、手段、方法和流程还很模糊,对海量数据的挖掘、分析和处理等技术仍在不断的发展和进步,由于作者自身的能力和水平有限,本书不可避免的存在诸多的缺点和不足,期待各位读者能够积极发现问题,并予以批评指正。
编写单位:
编写单位:
清华大学编写组成员:
编写组成员:
王建民、郭朝晖、王晨工业大数据分析指南I目目录录序言序言I1.工业大数据分析概论11.1工业大数据分析的概述11.1.1工业大数据分析的概念.11.1.2工业大数据分析的相关技术.21.1.3工业大数据分析的基本过程.21.1.4工业大数据分析的类型.41.1.5工业大数据分析价值51.1.6工业大数据分析支撑业务创新.61.2工业大数据分析的特殊性81.2.1从工业数据分析到工业大数据分析.81.2.2工业大数据与商务大数据分析.101.2.3工业大数据建模的难点.111.3工业数据分析中的常见问题.121.3.1业务和数据理解不当导致的失误.121.3.2建模和验证过程的失误.121.3.3避免失误的方法132.工业大数据分析框架142.1CRISP-DM模型.142.2CRISP-DM模型的落地难点.152.3工业大数据分析的指导思想.163.业务理解193.1认识工业对象19工业大数据分析指南II3.1.1工业系统的抽象化193.1.2工业系统的功能描述来,大数据的兴起有两种起因:
传统业务的发展遭遇数据存储量大、采集速度频率快、结构复杂等瓶颈问题,需要采用新的技术来解决,即“大数据平台技术”,如时序数据采集技术、海量数据存储技术等;另一种起因是随着数据存储量的增大和处理能力的增强,催生了新的应用和业务,即“大数据应用技术”,如智能制造、现代农业、智能交通等。
下图是工业大数据系统参考框架,从底至上分别是由工业大数据平台技术到工业大数据的应用技术。
图1.2工业大数据分析软件栈总体上看,“大数据平台技术”关注的主要偏重IT技术,而“大数据应用技术”关注的重点主要是业务和领域知识。
而大数据分析技术则是深度融合这两类技术知识,并结合机器学习技术、产品分析技术等数据分析技术,去解决实际业务问题的技术统称。
1.1.3工业大数据分析的基本过程工业数据分析的基本任务和直接目标是发现与完善知识,企业开工业大数据分析指南3展数据分析的根本目标却是为了创造价值。
这两个不同层次的问题,需要一个转化过程进行关联。
为了提高分析工作的效率,需事先制定工作计划,如下图所示。
图1.3工业数据分析任务的工作方案与探索路径数据分析起源于用户的业务需求,相同的业务需求会有多个可行方案,每一个方案又有若干可能的实现途径。
例如,面对减少产品缺陷的业务需求,可以分成设备故障诊断和工艺优化等方案。
而设备诊断又可进一步根据设备和机理的不同,分成更明确的途径,如针对特定设备特定故障的诊断。
遇到复杂问题,这些途径可能会被再次细分,直至明确为若干模型。
首先了解到的输入输出关系,如特定参数与设备状态之间的关系,这些关联关系即为知识的雏形,然后需要寻找适当的算法,提取和固化这些知识。
知识发现是个探索的过程,并不能保证每次探索都能成功,上述计划本质上是罗列了可能的方案。
只要找到解决问题的办法,并非每一条方案或途径都需要进行探索。
在不同的途径中,工作量和成功的概率、价值成本都是不一样的,一般尽量挑选成功概率大、工作量相对较小、价值大成本低的路径作为切入点,尽量减少探索成本。
在项目推进或者探索的过程中,还会根据实际的进程,对预定的计划及顺序进行调整。
业务需求方案1方案2途径1途径2模型1算法1.模型2..工业大数据分析指南4计划制定和执行过程,本质上体现了领域知识和数据分析知识的融合。
其中,方案和途径的选择,要兼顾业务需求和数据条件。
这就是第三到第五章讨论的问题,而算法、模型、验证等相关问题,则放在第六章和第七章讨论。
1.1.4工业大数据分析的类型根据业务目标的不同,数据分析可以分成四种类型:
描述型分析:
描述型分析用来回答“发生了什么”、体现的“是什么”知识。
工业企业总的周报、月报、商务智能(BI)分析等,就是典型的描述型分析。
描述型分析一般通过计算数据的各种统计特征,把各种数据以便于人们理解的可视化方式表达出来。
诊断型分析:
诊断型分析用来回答“为什么会发生这样的事情”。
针对生产、销售、管理、设备运行等过程中出现的问题和异常,找出导致问题的原因所在,诊断分析的关键是剔除非本质的随机关联和各种假象。
预测型分析:
预测型分析用来回到“将要发生什么?
”。
针对生产、经营中的各种问题,根据现在可见的因素,预测未来可能发生的结果。
处方型(指导型)分析:
处方型(指导型)分析用来回答“怎么办”的问题。
针对已经和将要发生的问题,找出适当的行动方案,有效解决存在的问题或把工作做得更好。
业务目标不同,所需要的条件、对数据分析的要求和难度就不一样。
大体上说,四种问题的难度是递增的:
描述性分析的目标只是便于人们理解;诊断式分析有明确的目标和对错;预测式分析,不仅有明确的目标和对错,还要区分因果和相关;而处方式分析,则往往要工业大数据分析指南5进一步与实施手段和流程的创新相结合。
同一个业务目标可以有不同的实现路径,还可以转化成不同的数学问题。
比如,处方型分析可以用回归、聚类等多种办法来实现,每种方法所采用的变量也可以不同,故而得到的知识也不一样,这就要求要对实际的业务问题有着深刻的理解,并采用合适的数理逻辑关系去描述。
1.1.5工业大数据分析价值工业大数据分析的根本目标是创造价值。
工业对象的规模和尺度不同,价值点也有所不同,数据分析工作者往往要学会帮助用户寻找价值。
价值寻找遵循这样一个原则:
一个体系的价值,决定于包含这个体系的更大体系。
所以,确定工作的价值时,应该从更大的尺度上看问题。
对象不同,隐藏价值的地方往往也不尽相同。
下面是常见的价值点。
1)设备尺度的价值点船舶、飞机、汽车、风车、发动机、轧机等都是设备。
设备投入使用之后,首先面对的就是如何使用,包括如何使用才能有更好的性能或更低的消耗、如何避免可能导致造成损失的使用;其次是如何保证正常使用,也就是如何更好更快更高效地解决设备维修、维护、故障预防等问题。
除此之外,从设备类的生命周期看问题,分析下一代设备进行设计优化、更方便使用等问题。
2)车间尺度的价值点按照精益生产的观点,车间里面常见的问题可以划分为七种浪费:
等待的浪费、搬运的浪费、不良品的浪费、动作的浪费、加工的浪费、库存的浪费、制造过多(早)的浪费。
数据分析的潜在价值,也可以工业大数据分析指南6归结到这七种浪费。
一般来说,这七种浪费的可能性是人发现的,处理问题的思路是人类专家给出的。
人们可以用数据来确定他们是否存在、浪费有多少,并进一步确定最有效的改进方法。
3)企业尺度的价值点除了生产过程,工业企业的业务还包括研发设计(创新)、采购销售、生产组织、售后服务等多方面的工作。
相关工作的价值,多与跨越时空的协同、共享、优化有关。
比如,把设计、生产、服务的信息集成起来;加强上下级之间的协同、减少管理上的黑洞;把历史数据记录下来,对工业和产品设计进行优化;把企业、车间计划和设备控制、反馈结合起来等等。
随着企业进入智能制造时代,这一方面的价值将会越来越多。
然而,问题越是复杂,落实阶段的困难越大,应在价值大小和价值落地直接取得平衡。
4)跨越企业的价值点跨越企业的价值点包括供应链、企业生态、区域经济、社会尺度的价值。
这些价值往往涉及到企业之间的分工、协作、以及企业业务跨界重新定义等问题,是面向工业互联网的新增长点。
1.1.6工业大数据分析支撑业务创新一般来说,工业大数据分析服务于现有业务,但越来越多的企业开始把这一工作作为业务创新、转型升级的手段。
两类工作的性质不同,前者重点在如何进行数据分析,后者重点是如何应用数据分析。
支撑企业的转型升级、业务创新是工业大数据最重要的用途之一,但是从转型升级的尺度看问题,工业大数据分析只是一种技术支撑手段,利用该技术手段之前,需要梳理清楚数据分析技术和目标之间的关系。
首先要关注的是业务需求什么,而不是能从数据中得到什么,工业大数据分析指南7反之,思维就会受到较大的局限,甚至南辕北辙。
用大数据推动业务创新时,需要确认几个问题:
想做什么(业务目标)、为什么这么做(价值存在性)、打算怎么做(技术线路、业务路径)、需要知道什么(信息和知识,数据分析的目标)、怎么才能知道(数据分析过程)。
由此观之,推动企业的业务创新和优化(做什么、怎么做)是个大目标,而具体的数据分析则只是一个子目标(怎么才能知道)。
两类目标之间的尺度是不一样的。
对于具体的问题,数据分析不仅要关注如何得到小目标,还要结合业务需求,将大目标分解成子目标,也就是确定“需要知道什么”。
从数据分析师的过程来说,子目标的实现是战术问题,子目标的设定则是战略问题。
它们都是数据分析团队需要面对的难点所在。
如前所述,数据分析是个探索的过程。
而数据分析的子目标(想知道什么)能否实现取决于数据的条件,数据条件不满足时,有些子目标是无法满足的。
而数据条件是否满足,往往需要在探索的过程中才能确定下来。
同时,如果子目标无法实现,人们可能需要围绕业务需求,重新设置数据分析的子目标、甚至业务子目标,如此会降低数据分析的效率。
总之,工业大数据分析,必须要从业务高度上看问题,才能找准工作定位。
以上的想法,可以用下面的图来表示:
工业大数据分析指南8图1.4工业大数据价值创造的基本过程1.21.2工业大数据分析的特殊性工业大数据分析的特殊性进入大数据阶段,数据本身的变化是最基本的,在此基础上引发工作方法和价值体现的改变。
对于数据的变化,非工业领域往往强调数量变化,但在工业领域,数据变化的重点更是数据完整性和质量的提升。
随着数据完整性和质量的提高,人们能从不同的侧面观察对象和过程,从而得到更加可靠、更加精确、应用范围更大、涉及领域更多的分析结果,从而为工业大数据的应用奠定了基础。
所以,工业大数据分析方法的重点,是如何利用数据条件的改善,得到质量高的分析结果。
这使得工业大数据分析方法不同于传统的数据分析,也不同于商务大数据分析。
此外,工业场景的边界都有专业领域的机理进行约束,所以工业大数据的分析注重数据模型和机理模型的融合,它的重要特征是数据与机理的深度融合。
1.2.1从工业数据分析到工业大数据分析工业数据的分析或知识挖掘是学术界和工业界研究了多年的问题,诸多算法的基本思路都类似。
进入大数据时代以来,由于数据和工业大数据分析指南9处理量的暴增,人们不得不采取各种并行算法和分布式处理技术,以提高数据处理的效率。
换句话说,工业数据分析是“本”,大数据分析技术是“术”。
由于本白皮书重在“工业”特色,上述通用技术不是本文的重点。
与此同时,数据量更大、来源更广泛、记录更完整、种类更多样,给数据分析工作带来了新的机遇。
无论复杂的算法(如深度学习)还是简单的算法(如线性回归),都有可能带来过去无法企及的效果。
人们甚至更乐于采用一些简单的算法。
但在大数据的条件下,这些简单算法的有效性却大大提高了,能帮助人们得到可靠性更高、适用范围更大的模型。
引发这些变化的原因包括:
便于模仿(场景下的模仿):
大数据常常是全体样本,而不是抽样。
在这个前提下,就可以根据历史上成功或者失败的案例,模仿成功的做法、避免失败的做法,而不必通过理解规律来指导行动。
这使得近邻算法等简单算法可以起到很好的效果。
便于检验:
当已知样本不能涵盖各种复杂的情况和场景时,数据模型很难有较强的泛化性。
在大数据的背景下,这种现象可能会有本质性的好转,从而得到泛化性高的模型。
视角全面:
数据来源广泛时,有条件从不同的角度观察对象、分析验证,也有更好的条件辨别和剔除虚假的现象。
这些都有利于建立可靠性极高的模型、甚至可能挖掘出新的科学规律。
如此,就将工业大数据分析的应用带入一个巨大的蓝海,人们有条件让数据分析工作更加规范,明显区别于传统的数据挖掘或知识发现。
但是,相关的条件不是天然具备的,需要在数据的完整、规范、质量等方面做更多的基础性工作。
工业大数据分析指南10我们在实践中认识到工业大数据分析的瓶颈难点,往往不是计算机存储和处理数据的能力,而是数据关联关系的复杂性。
这种复杂性使得传统的数据分析方法难以奏效,无法高效提炼出质量更高、价值更大的知识。
如果没有合适的方法,面对工业大数据价值的蓝海时,就会束手无策、坐等机会的流失。
要解决这类问题,不能仅仅停留在算法层面,而是必须借鉴工程思想和方法,这是其挑战所在。
1.2.2工业大数据与商务大数据分析工业大数据分析工作的特点和理念,往往不同于商务大数据分析。
其本质原因是工业过程对分析结果的精度、可靠度要求高,而工业对象和过程本身的复杂性也高。
同时,工业界追求可靠性,对相关问题往往已经有了相对深入的研究。
数据分析得到的知识,必须超越人们以往已有的知识,才能创造价值。
这也提高了数据分析的价值创造门槛。
换而言之,工业大数据的分析,往往要在更差的条件下得到更好的结果。
工业大数据分析困难程度的增加,会引发分析方法的质变。
对于复杂的工业过程数据分析,人们往往要强调因果性,而不能仅仅止步于相关关系;强调领域知识和数据分析过程的深度融合,而不是漠视已有的领域知识;强调复杂问题简单化,而不是追求算法的复杂和高深。
这些思想变化的本质,都是问题复杂度的增加引发的。
工业对象复杂度的增加,也会导致分析工作失败可能性的显著增加。
要提高数据分析的工作效率,关键之一就是设法降低分析过程失败的概率,所以数据分析的前期准备性工作和后期的评估和验证工作就显得特别重要。
工业大数据分析指南111.2.3工业大数据建模的难点工业大数据建模的难点在于,虽然数据分析基础算法变化不大,但运用这些算法的过程却大大复杂了。
这是因为工业大数据分析的过程,并非选择好一个算法就可以一蹴而就的,而往往是个持续改进、修正、完善的过程。
理解工业大数据分析的特点,就是要理解这个持续进行的过程。
与商务或互联网大数据分析相比,工业大数据分析的难点就在复杂性上,不能仅仅看作基础算法,导致这种差异性的原因主要有三点:
首先,工业产品大多是在人类知识发现的基础上制造出来的,人们对工业过程的认识原本就相对深刻,分析过程不能止步于肤浅的认识、只有分析得到的知识具有更高精度和可靠性的时候才有实用价值;其次,人们对工业大数据分析结果的可靠性要求很高,不能满足于似是而非的结论;再次,工业过程数据的复杂性很高、数据质量也不理想,建模的困难度往往很大。
所以,工业大数据分析面临的主要矛盾是:
业务需求高、数据条件差。
基于历史数据的大数据分析也有极大的局限性。
导致局限性的原因有两个方面,首先是人类接触的大量信息和知识并未出现在数字空间;其次是在数据足够多、分布完整、质量良好的前提下可以建立理想的数据模型,但当模型涉及到的因素很多、形成真正的复杂多维度问题(如变量数目大于40)且机理不清晰时,就不能有足够的数据来建立和验证模型(因为数据需求量有可能是维度的指数函数)。
克服局限性的主要手段就是充分利用专业领域知识,领域知识的本质作用可以看作“降维”,故而可以让有限的数据,分析到足够可靠的结果。
工业大数据分析指南121.31.3工业数据分析中的常见工业数据分析中的常见问题问题1.3.1业务和数据理解不当导致的失误1)设定不具备价值的目标数据分析的目的是获得新知识或者对知识进行更加深刻、准确的认识,而不是去证明领域内常识的正确性或研究已有的知识。
分析师缺乏领域常识时,就不容易分辨哪些知识才是值得研究的,进而耽误了大量时间。
例如:
有人要分析化学元素对材料性能的影响,终于发现某个元素对性能有显著影响,而该知识已是领域内的常识,造成了较高的探索成本。
2)业务上难以实施的目标获得知识的目的是为了应用,预测和控制是典型的应用,但是并非所有的数据都能用来预测和控制。
比如,用于预测的数据应该在事件发生之前产生;用于控制的变量要考虑经济可行性。
3)分析难度过大的目标数据分析是为业务需求服务的,要注意避免研究投入高、产出低的问题。
有些分析结果虽然很好,但是花费了大量的时间和精力,大大超出预期,从投入产出比上看,未必合适。
与此同时,也有些分析结果非常好、非常有用,甚至出乎人们的预料,而花的时间也非常少。
这些现象表明,我们对分析结果的投入产出比事先缺乏认识。
1.3.2建模和验证过程的失误1)不能及时终止子目标在很多情况下,数据条件往往不能支撑预期的目标,往往会导致分析项目高投入、低产出的问题。
导致这种情况的原因,未必是数据工业大数据分析指南13分析算法的问题,而是数据本身的问题。
数据质量很低时,难以得到高质量的分析结果。
为避免这种情况,应事先对数据的质量和条件进行评估。
2)目标衡量的失误数据分析师往往把“平均精度”作为衡量分析结果的唯一标准。
对于可靠性要求很高的工业问题,此种做法有较大的漏洞和潜在风险。
有些精度很高的模型,在实际中应用时,却发现根本无法达到预定的效果,甚至得到与期望完全相反的结果、给企业造成很大的损失。
导致这种现象的典型原因,是没有区分相关性和因果性或者没有仔细研究这些分析结果适用的范围,比如独立同分布特性。
由于工业数据反映的是“系统性”,这种问题的发生是常见的。
工业界对结论的可靠性要求很高,对分析结果的评估,是值得仔细研究的问题,而多数团队对这个问题的重要性认识不足。
1.3.3避免失误的方法欲避免数据分析工作的陷阱,就须事先了解可能遇到的问题和困难,以避免在工作过程中遇到不必要的麻烦,提高数据分析的价值创造能力。
数据分析遇到的问题,往往来源于数据分析师对业务过程、目标等认识不清。
这些问题的根源往往都是前期的准备工作做得不够、匆匆进入后面的工作所导致,即工业领域的数据分析不能仅仅把数据分析工作看成利用单纯的数据分析技巧的过程,而是数据分析和领域知识融合的过程。
“胜兵先胜而后求战,败兵先战而后求胜”。
在进行深入的数据分析之前,必须对业务需求、专业领域背景知识、数据的基本情况作尽可能深入的理解,明确问题的内涵,要避免在“最后一工业大数据分析指南14公里”上“上功亏一篑”。
要正确评估问题的难度。
尽量用少的时间代价换取高的成功率和更多的价值。
同时,要学会选择合适的方法解决合适的问题,还要对分析结果的可靠度有科学的评估办法,避免技术在应用中出现负面作用。
2.2.工业大数据分析框架工业大数据分析框架2.12.1CRISPCRISP--DMDM模型模型CRISP-DM模型是欧盟起草的跨行业数据挖掘标准流程(Cross-IndustryStandardProcessforDataMining)的简称。
这个标准以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行等六个基本的步骤,如下图所示。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工业 数据 分析 指南 doc