信息化业务需求汇总表基于容器云技术的人工智能平台建设.docx
- 文档编号:10861903
- 上传时间:2023-02-23
- 格式:DOCX
- 页数:16
- 大小:364.43KB
信息化业务需求汇总表基于容器云技术的人工智能平台建设.docx
《信息化业务需求汇总表基于容器云技术的人工智能平台建设.docx》由会员分享,可在线阅读,更多相关《信息化业务需求汇总表基于容器云技术的人工智能平台建设.docx(16页珍藏版)》请在冰豆网上搜索。
信息化业务需求汇总表基于容器云技术的人工智能平台建设
附件1
信息化建设业务需求分析报告
(基于容器云技术的人工智能平台建设)
申报部门(单位):
XXXX(盖章)
申报时间:
年月
1概述
1.4系统建设现状
国网浙江信通公司作为国网浙江电力的信息化支撑单位,率先建成融合企业云计算大数据一体化服务平台和全业务统一数据中心的“浙电云”平台。
目前已有219台服务器规模,部署了30个技术组件,并完成39套企业核心业务系统全业务数据的汇集,合计数据表39674张,总的数据存储量达527TB。
初步构建企业数据统一汇集共享机制,已累计为公司50多个项目的80多个“互联网+”创新应用提供数据服务支持,形成了“互联网+”智能运检、“互联网+”营销服务、“互联网+”规划、“互联网+”电力物资、运监大数据和财务精益化等新型业务形态雏形。
建成用电客户标签库、大数据运营监测系统、智能运检管控平台、供电服务指挥系统、配电网规划辅助决策等创新业务应用。
企业数据统一汇集共享机制及业务创新运营机制的初步建成,为人工智能在国网浙江电力的试点应用落地及铺开打下了较为坚实的基础。
1.5必要性分析
人工智能在电力能源有很广泛的应用技术场景,可以对如下技术场景进行储备:
Ø多功能场景分析系统,包括摄像机自动标定、人员检测、人员跟踪、姿势分类、行为分析、三维重建等模块。
Ø利用无人机,巡线机器人和遥感卫星等对书店设备本体和输电通道环境进行立体巡检和风险评测,基于人工智能图片识别技术有效的处理图片以及视频技术,准确识别出输变电设备本体的缺陷和输电线路的潜在风险。
Ø基于导航图像的知识积累和人工智能,通过对空间导航和智能巡检规划,优化巡检路径和重点排查区域。
Ø通过人工智能图像识别技术,识别用电现场危险行为,增强用电现场作业的安全性和效率。
Ø基于深度学习技术对云观测图像中的云层和云系进行识别和辨识,并对其演化进行预测,实现对云层遮挡条件下光伏功率的快速波动的预测,提供新能源跨省、跨区域高效消纳能力。
随着新能源持续高比例运行、电力电子装置大量应用、电力市场化水平不断提高,电力系统的动态非线性、多时间尺度、不确定性和难预测性表现得更加突出,以人工智能为核心的数据驱动方法相对于基于物理模型的分析方法,更加精准地刻画电力系统特征,。
同时,为了应对上述变化,电力系统部署了众多用于监测、控制、管理的信息通信系统,产生着大量的数据,在电网安全与控制领域、输变电领域、配用电领域、新能源领域等应用场景下表现出大维度、小样本、非结构化的数据特性,目前常规的统计分析、数据挖掘、机器学习,难以满足需求。
机器学习构建任何适用于生产环境的机器学习系统都涉及各种组件的组合,通常会混合供应商和手动解决方案。
连接和管理这些服务已然不易,再加上复杂的环境设置,都为机器学习应用带来了巨大的障碍。
基础设施工程师通常会在测试单个模型之前,花费大量时间手动调整部署和升级的解决方案。
更糟的是,这些部署与他们部署的集群紧密相关,以至于这套技术栈不便迁移。
如果没有重构,将模型从笔记本电脑移动到高可扩展的云集群几乎是不可能的。
以上的问题造成了大量人力和物力的浪费,并为每次迁移造成了引入bug的机会。
通过使用kubernetes容器云的一键配置集群规模和设备,更方便地使用CPU和GPU可配置为使用CPU或GPU,并通过单一设置调整集群的大小,支持训练加速等等特性解决以上问题。
1.6建设目标
1.搭建人工智能云平台,包括图像标注系统,模型开发和训练平台,模型服务托管平台。
打通数据–模块–服务流程,为算法科学家提供一站式开发体验。
2.人工智能算法包含:
图像分析(人、物、OCR)、文本类型(对话机器人基础算法、文本分析、知识图谱构建基础算法、文本分类、语义分析)、语音类型(声纹识别、语音识别、异音检测、语音质量检测、语音合成)、机器学习(推荐系统、时序预测、无监督算法)等。
将这些常用算法包直接上架到人工智能平台算法商店进行统一管管,提升开发效率。
3.打造安全高效的数据存储管理平台,将内部和外部数据集统一存储在数据存储管理平台上。
并支持通过对象存储或分布式文件存储实现数据的快速访问和更新。
2业务需求
2.4人工智能平台硬件配置
2.4.1业务需求描述
(1)平台硬件配置
9台2u12*4TSATA存储机器(72线程,128G)
序号
产品型号
详细配置
单位
数量
单价
合计
备注
安擎服务器EG520R-G10
存储节点
整机部分
机架式2U
台
9
¥0.00
(+)配件
CPU
E5-2697v418核36线程
颗
2
80500.00
¥885,500.00
主板
X10DRL-I(集成I3502口千兆网卡)
块
1
机箱
RM23624H01(两块800W冗余电源,2U,12盘位,带2*2.5寸尾盘)
台
1
内存
32GDDR4RECC
根
4
raid卡
LSI9361-8I含线(1G)
块
1
硬盘
4TSATA3.5寸
块
12
万兆网卡
IntelX520SR2含模块
块
1
导轨
副
1
6台2u8*240G计算节点(72线程,128G)
序号
产品型号
详细配置
单位
数量
单价
合计
备注
安擎服务器EG520R-G10
管理节点
整机部分
机架式2U
台
6
¥0.00
(+)配件
CPU
E5-2697v418核36线程
颗
2
70900.00
¥496,300.00
主板
X10DRL-I(集成I3502口千兆网卡)
块
1
机箱
RM23608H01(两块550W冗余电源,2U,8盘位)
台
1
内存
32GDDR4RECC
块
4
SSD
S4500240GSSD
块
8
万兆网卡
IntelX520SR2含模块
块
1
导轨
副
1
50台1机4卡GPU1080ti机器(56线程,128G)
序号
产品型号
详细配置
单位
数量
单价
合计
备注
安擎服务器EG820G-G10
GPU节点
整机部分
塔式4U
台
50
¥0.00
(+)配件
CPU
E5-2680v414核28线程
颗
2
¥0.00
¥0.00
内存
32GDDR4RECC
根
4
SSD
S4500240GSSD
块
1
硬盘
4TBSATA
块
2
万兆网卡
X520-SR2
块
1
GPU卡
华硕1080ti
块
4
机塔套件
MCP-290-00059-0B
台
1
2.5托架
MCP-220-93801-0B
个
1
规模说明:
集群类型
集群用途说明
规模预估
备注
管理集群
管理集群:
1.多台服务器节点组建高可用主控集群。
2.多台服务器节点组建高可用镜像仓库集群。
7台服务器
镜像节点服务器存储用量较大。
存储集群
存储集群:
1.人工智能平台配置,状态信息存储。
2.训练数据集(视频,图片,文本,语音等类型文件)存储。
3.模型训练输出文件存储(训练模型文件,训练事件文件,训练日志文件)。
11台服务器
视频监控类存储资源计算参考公式:
存储(TB)=2.16TB~3.24TB/天×摄像头数(单位:
千台)×存储天数。
GPU集群
GPU集群:
1.部分GPU节点用于模型训练任务。
2.部分GPU节点用于模型服务实例运行。
50台GPU服务器(每台4块GPU显卡)
由于GPU厂商的限制,多个训练任务不能同时公用一块GPU卡,所以每个训练任务至少独占一块GPU卡。
资源参考公式:
服务器(台)=[分析场景类别(种)X[模型训练实例数+模型实例数]]➗4。
2.4.2业务流程
无
2.4.3业务数据
无
2.5人工智能云平台建设
2.5.1业务需求描述
(1)划分实验域与生产域
针对浙电云平台应用运行中产生的海量数据搭建人工智能平台训练的实验域和调用人工智能平台模型服务的生产域,生产域紧密结合浙电云平台以及运行应用。
其中包括三大组件:
训练数据管理组件,AI模型训练组件,模型托管组件。
(2)基于kubernetes容器云
在不同的基础设施上轻松可重复、便携的部署和管理松散耦合的微服务应用,根据需求进行缩放,利用kubernetes为使用者提供简单的清单,以便可以轻松地在任何位置使用机器学习堆栈在kubernetes上运行。
此外,容器云技术可以基于部署集群进行自我配置,最大化使用资源。
(3)基本公共组件
平台综合管理功能,主要针对平台管理员角色,其中功能包含:
账号管理、多租户管理、计算存储网络资源管理、告警管理、日志管理、监控管理、插件扩展中心功能。
(4)训练数据管理
对接和管理底层存储,将存储资源分配给平台用户,平台用户基于管理员已分配存储空间来存储训练数据集。
已存储的数据集可以在平台上进行数据标记操作。
存储数据中包含训练代码文件,可以通过jupyternotebook进行在线修改训练代码以及Debug。
AI训练结束后对训练产生的事件、日志、模型文件进行存储。
(5)AI模型训练
模型训练包含前期训练的项目参数配置、资源分配、任务提交、任务提交后的资源调度以及资源紧张时任务插队系统,以及在训练过程中资源监控、训练日志、训练可视化展示,模型评估以及模型导出的全生命周期管理。
(6)模型托管
模型托管包括模型运行环境定义,模型发布实例数定义,模型运行后的弹性伸缩策略定义,客户端调用示例代码段生成,模型运行后GPU等资源监控告警,模型实例运行日志收集与展示。
2.5.2业务流程
无
2.5.3业务数据
无
2.6人工智能算法库与数据资料库
2.6.1业务需求描述
(1)人工智能算法库
由于人工智能应用的开发复杂度高,不仅仅涉及到软件前端和后端的开发,还要涉及到人工智能模型和算法的研发、开发人员对于人工智能算法的了解。
平台应具备常见的基础算法库,基于人工智能场景的丰富,我们需要的算法库包括但不限于:
图像分析:
Ø人:
人脸识别、人脸检测、人体检测、人体跟踪、行为分析
Ø物:
物品识别、细粒度分类、缺陷检测
ØOCR:
车票OCR、通用OCR、发票OCR、表格OCR
文本类型:
Ø对话机器人基础算法
Ø文本分析
Ø知识图谱构建基础算法
Ø文本分类
Ø语义分析
语音类型:
Ø声纹识别
Ø语音识别
Ø异音检测
Ø语音质量检测
Ø语音合成
机器学习:
Ø推荐系统:
1.基于图像识别的电商内容推荐系统;2.基于深度学习的用户行为推荐系统;3.基于深度学习的排序算法。
Ø时序预测:
1.非参数时序预测;2.机器学习时序预测;3.深度学习时序预测。
Ø无监督算法:
1.聚类算法;2.降维算法。
(2)人工智能数据资料库建设
搭建人工智能数据资料库,将内部和外部数据集统一存储在资料库中,支持通过对象存储或块存储实现数据的快速访问和更新。
2.6.2业务流程
无
2.6.3业务数据
无
2.7典型场景应用验证
2.7.1业务需求描述
(1)智能工单问答机器人与工单知识图谱验证
1)构建知识图谱
知识图谱是一项在语义层级对于语言进行梳理和整理的技术,可以简单分为通用知识图谱和领域知识图谱两类。
通过建设好的知识图谱,我们可以自动进行推理,让我们的语义相关产品更加智能。
通用知识图谱建立是一个长期的、十分巨大的工程,耗费人力和物力。
为了提供项目的可行性,我们这里主要探讨的是如何建立一个细分领域的知识图谱,通常包含的步骤是:
Ø语料准备
针对要建立知识图谱的领域,尽可能全的搜集相关语料,包括产品介绍,问答,工单等。
对语料进行一定程度的清洗,剔除无关的部分,按照领域和类别进行梳理。
如果语料数量庞大,可以有代表性的整理其中一部分,然后请算法工程师和知识工程师根据以整理的语料进行建模,利用机器学习的方法整理相关语料,从而节省人力,提升效率。
Ø抽取实体
针对整理好的原始语料,请领域专家和相应的内容编辑人员从中抽取本领域的各种实体(一般是专有名词、概念等)、以及实体的相关属性。
这一步要求有较高的专业知识以及一定的知识工程、知识管理能力,一般由领域专家和知识工程师联合起来共同完成。
在实际的项目进行中,也可以通过人机结合的方式,由领域专家提出相关要求,并整理出一系列样本范例,然后由算法工程师建立相应的机器学习模型做大规模抽取。
Ø建立关系
有了实体/属性的数据之后,下一步是请领域专家在实体之间建立相应的关系,比如包含关系、继承关系、从属关系等等。
这部分工作一般是由领域专家给出关系的类型和基本样例,由算法工程师建模在原始语料上进行挖掘,有了初步结果之后由领域专家进行审核矫正,并将相关结果反馈给算法工程师进行模型调优。
Ø导入数据库
为了提升效率、便于检索,知识图谱的存储一般需要专业的数据库存储层,特别是数据量很大的时候,一般不适合用传统的关系式数据库进行存储。
针对较大规模的知识图谱,我们一般建议采用专业的图数据库进行存储,而规模较小的知识图谱,可以考虑用自定义的数据结构直接存储在内存中,一般也可以应对日常的各种应用。
Ø开发应用
至此知识图谱的建立过程基本完成,往下由开发人员根据具体的应用场景进行开发。
一般图数据库会提供一系列的开发接口,根据不同的应用需求,例如问答、检索、匹配计算、知识展示等等调用相应的接口进行开发。
2)文档解析系统
首先,文本抽取模块从原始文档中初步抽取出文本。
之后的内容纠错模块对抽取出初步文本进行各种类型的纠错。
例如原始抽取可能无法区分不属于一列的同行信息,内容纠错模块利用机器学习模型和自然语言处理模型区分出不同的列,然后再把不同列的信息进行重新整合。
原始文档中除了正文外,还会包含大量的非正文内容,如标题、页眉、页脚和标注等。
这些信息在文本抽取模块抽取后是混合在正文内容中的。
内容结构化模块的目的是利用机器学习分类模型把这些内容分门别类地从正文中剥离出来。
3)表格解析系统
文档中包含复杂的表格,而这些表格信息又是文档的重要组成部分。
首先,文本抽取模块从原始文档中初步抽取出文本。
之后的表格定位模块利用位置信息和所在位置的内容定位到表格的具体位置。
表格/文本对齐模块把表格中的内容与具体单元格进行对齐,对齐后的数据进入表格解析模块。
表格解析模块识别跨行跨列的单元格、以及表格跨页,表中表等复杂情况,对它们分别做解析并以合适的结构存储最终的结果。
4)知识点抽取系统
知识点抽取系统利用人工标注的少量样例数据,训练深度学习模型,然后利用训练好的模型从新文档中抽取对应的知识点。
利用深度学习和迁移学习模型,少量的人工标注投入,就能获得泛化性很好的新知识点抽取能力。
利用阅读理解技术中最新的句间注意力(Inter-Attention)和句内注意力(Intra-Attention)机制,我们在原有阅读理解模型的基础上,研发了准确度更高,可解释性更好的注意力匹配模型:
Attention-MC模型。
下图是Attention-MC模型的结构。
5)对话机器人核心技术
在完成多个具体对话机器人项目后,我们发现可以依据问题类型的不同,来划分对话子机器人。
不同的对话子机器人,使用最适合场景的技术框架来实现,以便应对不同类型的用户问题。
所有这些对话子机器人,通过路由子机器人(RouteBot)进行整合,最终形成DeepBot对话框架。
2.7.2业务流程
无
2.7.3业务数据
3集成需求
无
4实施范围
说明本期建设的信息系统功能的实施范围。
5其他需求
5.4可靠性
通过软件架构的分层和分开部署满足层次分明,功能清晰,防止某一层次某一分布的错误导致集成接口的瘫痪。
系统满足集成接口监控的要求,记录错误编号、错误原因及错误来源、错误动作供分析,并可深入跟踪的错误信息。
5.5信息安全
集成接口的设计开发应从应用安全要求和数据安全要求两个方面进行考虑。
分析应用、数据模型要求遵照全业务数据中心分析域信息安全设置。
物理安全则需根据系统安全定级参考国家信息安全等级保护及智能电网信息安全防护方案要求进行设计。
5.6可维护性
可维护性是指集成接口适应修改缺陷、增加新功能、系统移植、接口迁移等。
5.6.1易修改
Ø集成接口遵循易配置性,通过简单配置即满足功能性修改需求;
Ø充分考虑集成接口的扩展性,为后期修改预留充足的扩展空间,在系统升级或迁移后原有集成接口能够继续使用;
5.6.2易测试
Ø输入输出提示信息明确(成功、失败等交互信息简洁明了)。
Ø支持相应的测试工具(LoadRunner等)。
5.7系统灾备设计
满足本地数据备份要求,根据国家电网公司灾备建设相关要求、应用和数据的特点,在系统上线前,针对项目制定符合项目单位实际运行情况的备份方案、恢复测试方案,并应在全部数据导入后进行全真模拟环境下各类备份的测试和恢复工作。
配合实施灾备建设,同时应与国网浙江公司一并进行系统上线前的灾备测试演练。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息化 业务 需求 汇总表 基于 容器 技术 人工智能 平台 建设
![提示](https://static.bdocx.com/images/bang_tan.gif)