7 知识图谱复旦大学基于知识图谱的用户画像技术研究Word格式文档下载.docx
- 文档编号:15117253
- 上传时间:2022-10-27
- 格式:DOCX
- 页数:28
- 大小:1.06MB
7 知识图谱复旦大学基于知识图谱的用户画像技术研究Word格式文档下载.docx
《7 知识图谱复旦大学基于知识图谱的用户画像技术研究Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《7 知识图谱复旦大学基于知识图谱的用户画像技术研究Word格式文档下载.docx(28页珍藏版)》请在冰豆网上搜索。
•隐私疼惜
-不准
•乐音标签
•粒度太粗
什么是学问图谱
学问图谱
学问图谱是一种海量学问表征形式,表达了客类实体及其之间的各种语义关系。
-更高的实体、概念掩盖率
-更为丰富的语义关系-自动化构建程度
-较高的数据质量
利用学问图谱改善用户画像
基于社交图谱的标签扩展
基于社交图谱的标签传播
问题:
很多用户处于隐私考虑,不愿发布标签,或者刻意隐蔽本人的行为
思路:
从你的好友,寻求关于你的合适标签
方法:
基于PageRank机制,让好友的标签传播到特定用户
-越多好友具有某个标签,用户越可能具有某个标签
-关系越强,标签越可能传播到某个用户
基于标签传播的用户画像
基于学问图谱的标签扩展
标签泛化
基于最小描述长度的标签泛化
基于学问图谱的夸平台推举
互联网标签系统体系架构
产品由"
三库一引擎"
构成,可以独立构建。
也可以作为大数据分析处理平台的无机组成部分,定位于业务感知层,向下对接数据融合层,对上服务于数据使用层。
URL标签化及维护实现原理
学问工场
阿里学问图谱多智能:
千万级别拦截量,亿级别全量智能审核次数
新零售技术解读
导读:
阿里巴巴生态里积累了海量的商品数据,这些贵重的商品数据来自于淘宝、天猫、1688、AliExpress等多个市场,同时品牌商、行业运营、管理运营、消费者、国家机构、物流商等多种角色参与其中,贡献着校正着这样一个浩大的商品库。
但无论从学问产权疼惜角度,还是提升消费者购物体验,实现商品数据的标准化(商品规范的统一和商品信息的确定性),以及与内外部数据之间的深度互联,意义都格外严峻,阿里商品学问图谱承载着商品标准化这一基础性,根源性的工作。
在马老师“像管理酒驾一样管理假货”的号召下,借助阿里学问图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。
在海量的商品发布量的挑战下,最大可能地借助大数据、人工智能阻遏坏人、问题商品进入阿里生态。
同时面临问题商家实时的对弈、变异和恶意攻击等诸多挑战,学问图谱照旧保持着每天千万级别的拦截量,亿级别的全量智能审核次数,在滥发、侵权、合规、假货、运营范围等多个场景全面与问题卖家正面交锋,实时对弈。
为了最大限度地疼惜学问产权,疼惜消费者权益,我们对学问图谱推理引擎技术提出了智能化、自学习、毫秒级响应、可解释等更高地技术要求,实现良好的社会效益。
阿里学问图谱运用
阿里商品学问图谱承载着商品标准化这一基础性,根源性的工作。
通过学问表示来规范对商品数据的描述。
基于此,我们才能晓得哪些商品是同样一件产品,我们才能精确 地晓得一个品牌能否被授权,品牌下的产品卖到了哪些市场。
阿里学问图谱以商品、标准产品、标准品牌、标准条码、标准分类为核心,利用实体识别、实体链指和语义分析技术,整合关联了例如舆情、百科、国家行业标准等9大类一级本体,包含了百亿级别的三元组,构成了巨大的学问网。
阿里学问图谱综合利用前沿的NLP、语义推理和深度学习等技术,打造全网商品智能服务体系,服务阿里生态中的各个角色。
商品学问图谱广泛地使用于搜索、前端导购、平台管理、智能问答、品牌商运营等核心、创新业务。
能够挂念品牌商透视全局数据,挂念平台管理运营发觉假货,挂念行业基于确定的信息选品,做人货场婚配提高消费者购物体验等等。
为新零售、国际化供应牢靠的智能引擎。
引入机器学习算法搭建推理引擎
我们设计了一套框架做学问表示和推理。
此外:
学问图谱实体、关系、词林(同义词、上下位词)、垂直学问图谱(例如地理位置图谱、材质图谱)、机器学习算法模型等都纳入进来做统一的描述。
依据不同场景,我们把推理分为:
上下位和等价推理;
不全都性推理;
学问发觉推理;
本体概念推理等。
例如
1.上下位和等价推理。
检索父类时,通过上下位推理把子类的对象召回,同时利用等价推理(实体的同义词、变异词、同款模型等),扩大召回。
例如,为疼惜消费者我们需要拦截“产地为某核污染区域的食品”,推理引擎翻译为“找到产地为该区域,且属性项与“产地”同义,属性值是该区域下位实体的食品,以及与命中的食品是同款的食品”。
2.不全都推理。
在与问题卖家对弈过程中,我们需要对商品标题、属性、图片、商品资质、卖家资质中的品牌、材质、成分等基础信息,做全都性校验。
比如说标题中的品牌是Nike而属性或者吊牌中品牌是Nake,如下图所示,左边描述了商品标题、属性、吊牌上的品牌信息是全都的,推理为全都。
左边为吊牌和商品品牌不全都的商品,被推理引擎推断为有问题的商品。
1.学问发觉推理。
全都性推理的目的是确保信息的确定性,例如通过全都性推理我们能确保数据掩盖到的食品配料表正确。
但消费者购物时很少看配料表那些繁杂的数字。
消费者真正关怀的是无糖、无盐等强感知的学问点。
为了提高消费者购物体验,学问发觉推理通过底层配料表数据和国家行业标准例如
无糖:
碳水化合物≤0.5g/100g(固体)或100mL(液体)
无盐:
钠≤5mg/100g或100mL
做规律推理。
可以把配料表数据转化为“无糖”“无盐”等学问点。
从而真正地把数据变成了学问。
通过ABtest验证,类似学问点在前端导购中极大地改善了消费者购物体验。
推理引擎背后技术框架
首先,推理引擎把自然言语通过语义解析(semanticparsing)转换为规律表达式(logicalform)。
语义解析接受了结合神经网络和符号规律执行的方式:
自然言语经过句法、语法分析、NER、EntityLinking,被编码为分布式表示(distributedrepresentation),句子的分布式表示被进一步本义为规律表达式。
在分布式表示转换为规律表达式的过程中,我们首先面临表示和谓词规律(predicate)操作之间映射的问题。
我们把谓词当做动作,通过训练执行symbolicoperation,类似neuralprogrammer中利用attention机制选择合适的操作,即选择最有可能的谓词操作,最终依据分析的句法等把谓词操作拼接为可能的规律表达式,再把规律表达式转换为查询等。
过程示意如下图所示。
其次,规律表达式会触发后续的规律推理和图推理。
规律表达式在设计过程中遵照以下几个准绳:
规律表达式接近人的自然言语,同时便于机器和人的理解。
表达力气满足学问图谱数据、学问表示的要求。
该当易于扩展,能够格外便利的添加新的类、实体和关系,能够支持多种规律言语和体系,如Datalog、OWL等,即这些言语及其背后的算法模块是可插拔的,通过可插拔的功能,推理引擎无力气描述不同的规律体系。
以上下位和等价推理为例:
“产地为中国的食品”,”
用规律表达式描述为:
∀x:
食物(x)⊓(∀y:
同义词(y,产地))(x,(∀z:
包括下位实体(中国,z)))
随后找同款:
∀t,x:
($c:
属于产品(x,c)⊓属于产品(t,c))
此外,推理引擎还用于学问库自动补全。
我们基于embedding做学问库补全。
次要思路是把学问库中的结构信息等加入embedding,考虑了Trans系列的特征,还包括边、相邻点、路径、实体的文本描述(如详情)、图片等特征,用于新关系的猜想和补全。
阿里学问图谱经过我们三年的建设,已经构成了巨大的学问图谱和海量的标准数据,同时与浙江高校陈华钧教授团队成立联合项目组,引入了前沿的自然言语处理、学问表示和规律推理技术,在阿里巴巴新零售、国际化战略下发挥着越来越重要的作用。
人工智能赛博物理操作系统
AI-CPSOS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:
云计算+大数据+物联网+区块链+人工智能)分支用来的今日,企业领导者必需了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPSOS构成数字化+智能化力气,实现行业的重新规划、企业的重新构建和自我的焕然重生。
AI-CPS
OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。
假如不能实现跨功能的更大规模融合,没有颠覆现状的志愿,这些将不行能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。
面对新一代技术+商业操作系统AI-CPSOS颠覆性的数字化+智能化力气,领导者必需外行业、企业与个人这三个层面都保持领先地位:
1.重新行业规划:
你的世界观要怎样转变才算足够?
你必需对行业典范进行怎样的反思?
2.重新构建企业:
你的企业需要做出什么样的变化?
你预备如何重新定义你的公司?
3.重新打造本人:
你需要成为怎样的人?
要重塑本人并在数字化+智能化时代保有领先地位,你必需如何去做?
AI-CPSOS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以挂念企业将创新成果融入本身业务体系,实现各个前沿技术在云端的优势协同。
AI-CPSOS构成的数字化+智能化力气与行业、企业及个人三个层面的交叉,构成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
1.精细:
这种力气能够使人在愈加真实、细致的层面观看与感知现实世界和数字化世界正在发生的一切,进而理解和愈加精细地进行产品共性化把握、微观业务场景大事和结果把握。
2.智能:
模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的力气。
3.高效:
企业需要建立实时或者准实时的数据采集传输、模型猜想和响应决策力气,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
4.不确定性:
数字化变更颠覆和转变了领导者已经仰仗的思维方式、结构和实践阅历,其结果就是构成了复合不确定性这种颠覆性力气。
次要的不确定性包含于三个领域:
技术、文化、制度。
5.边界模糊:
数字世界与现实世界的不断融合成CPS不只让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。
这种效应正在向生态系统、企业、客户、产品快速集中。
AI-CPSOS构成的数字化+智能化力气通过三个方式激发经济增长:
1.制造虚拟劳动力,担当需要顺应性和灵敏性的简约任务,即“智能自动化”,以区分于传统的自动化处理方案;
2.对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
3.人工智能的普及,将推动多行业的相关创新,开辟簇新的经济增长空间。
给决策制定者和商业领袖的建议:
1.超越自动化,开启新创新模式:
利器具有自主学习和自我把握力气的动态机器智能,为企业制造新商机;
2.迎接新一代信息技术,迎接人工智能:
无缝整合人类才智与机器智能,重新
评估将来的学问和技能类型;
3.制定道德规范:
切实为人工智能生态系统制定道德准绳,并在智能机器的开
发过程中确
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识图谱复旦大学基于知识图谱的用户画像技术研究 知识 图谱 复旦大学 基于 用户 画像 技术研究