书签分享收藏举报版权申诉 / 21

立即下载加入VIP,免费下载

当前位置：首页 > 求职职场 > 简历 > 人工智能人机交互发展报告.docx

人工智能人机交互发展报告.docx

文档编号：4880279
上传时间：2022-12-11
格式：DOCX
页数：21
大小：474.92KB

人工智能人机交互发展报告.docx

《人工智能人机交互发展报告.docx》由会员分享，可在线阅读，更多相关《人工智能人机交互发展报告.docx（21页珍藏版）》请在冰豆网上搜索。

人工智能人机交互发展报告.docx

人工智能人机交互发展报告

[文档副标题]

[日期]

[公司名称]

[公司地址]

人机交互技术

9人机交互技术

9.1人机交互概念

人机交互（Human-ComputerInteraction，HCI），是人与计算机之间为完成某项任务所进行的信息交换过程，是一门研究系统与用户之间的交互关系的学问。

系统可以是各种各样的机器，也可以是计算机化的系统和软件。

人机交互界面通常是指用户的可见部分，用户通过人机交互界面与系统交流，并进行操作。

人机交互技术是计算机用户界面设计中的重要内容之一，与认知学、人机工程学、心理学等学科领域有密切的联系。

目前关于人机交互的定义主要有三种：

一是ACM（AssociationforComputing

Machinery）的观点，它将人机交互定义为：

有关交互计算机系统设计、评估、实现以及与之相关现象的学科；二是伯明翰大学教授AlanDix的观点：

他认为人机交互是研究人、计算机以及他们之间相互作用方式的学科，学习人机交互的目的是使计算机技术更好地为人类服务；三是宾夕法尼亚州立大学JohnM.Carroll的观点：

他认为人机交互指的是有关可用性的学习和实践，是关于理解和构建用户乐于使用的软件和技术，并能在使用时发现产品有效性的学科。

无论是哪一种定义方式，人机交互所关注的首要问题都是人与计算机之间的关系问题。

人机交互技术的发展与国民经济发展有着直接的联系，它是使信息技术融入社会，深入群体，达到广泛应用的技术门槛。

任何一种新交互技术的诞生，都会带来其新的应用人群，新的应用领域，带来巨大的社会经济效益，从企业的角度，改善人机交互能够提高员工的生产效率；学习人机交互能够降低产品的后续支持成本。

从个人的角度，可以帮助用户有效地降低错误发生的概率，避免由于错误引发的损失。

在现代和未来的社会里，只要有人利用通信、计算机等信息处理技术进行社会活动时，人机交互都是永恒的主题，鉴于它对科技发展的重要性，人机交互是现代信息技术、人工智能技术研究的热门方向[59]。

●

网络用户界面

人机交互技术

以超文本标记语言HTML及超文本传输协议HTTP为主要基础的网络浏览器是网络用户界面的代表。

由它形成的万维网（WorldWideWeb,WWW）已经成为当今Internet的支柱。

这类人机交互技术的特点是发展快，新的技术不断出现，如搜索引擎、网络加速、多媒体动画、聊天工具等。

9.2.2自然人机交互

随着网络的普及性发展和无线通讯技术的发展，人机交互领域面临着巨大的挑战和机遇，传统的图形界面交互已经产生了本质的变化，人们的需求不再局限于界面美学形式的创新，用户更多的希望在使用多媒体终端时，有着更便捷、更符合他们使用习惯，同时又有着比较美观的操作界面。

利用人的多种感觉通道和动作通道（如语音、手写、姿势、视线、表情等输入），以并行、非精确的方式与（可见或不可见的）计算机环境进行交互，使人们从传统的交互方式的束缚解脱出来，使人们进入自然和谐的人机交互时期。

这一时期的主要研究内容包括：

多通道交互、情感计算、自然语言理解、虚拟现实、智能用户界面等方面。

●多通道交互

多通道交互（MultiModalInteraction，MMI）是近年来迅速发展的一种人机交互技术，它既适应了“以人为中心”的自然交互准则，也推动了互联网时代信息产业（包括移动计算、移动通信、网络服务器等）的快速发展[61]。

图9-2命令行界面概念模型

2019人工智能发展报告

MMI是指“使用多种通道与计算机通信的人机交互方式。

通道（modality）涵盖了用户表达意图、执行动作或感知反馈信息的各种通信方法，如言语、眼神、脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉或味觉等”。

采用这种方式的计算机用户界面称为“多通道用户界面”。

目前，人类最长使用的多通道交互技术包括手写识别、笔式交互、语音识别、语音合成、数字墨水、视线跟踪技术、触觉通道的力反馈装置、生物特征识别技术和人脸表情识别技术等方面。

●情感人机交互

让计算机具有情感能力首先是由美国MIT大学Minsky教授（人工智能创始人之一）提出的。

他在1985年的专著“TheSocietyofMind”中指出，问题不在于智能机器能否有任何情感，而在于机器实现智能时怎么能够没有情感[62]。

从此，赋予计算机情感能力并让计算机能够理解和表达情感的研究、探讨引起了计算机界许多人士的兴趣。

这方面的工作首推美国MIT媒体实验室Picard教授领导研究小组的工作。

情感计算一词也首先由Picard教授于1997年出版的专著“AffectiveComputing（情感计算）”中提出并给出了定义，即情感计算是关于情感、情感产生以及影响情感方面的计算。

MIT对情感计算进行全方位研究，正在开发研究情感机器人，最终有可能人机融合。

其媒体实验室与HP公司合作进行情感计算的研究。

IBM公司的“蓝眼计划”，可使计算机知道人想干什么，如当人的眼瞄向电视时，它竟然知道人想打开电视机，它便发出指令打开电视机。

此外该公司还研究了情感鼠标，可根据手部的血压及温度等传感器感知用户的情感。

CMU主要研究可穿戴计算机。

日本在对感性信息处理的研究中，有众多研究单位参与，主要集中在研究所和高校。

特别值得一提的是，日本欧姆龙公司研制生产的机器玩具曾风行一时，最高价达

4000美元。

随后其它公司也进行机器狗等玩具的生产。

情感计算的研究不仅具有重要的科学和学术价值，也存在着巨大的商机，有很好的经济效益。

●虚拟现实

虚拟现实（VirtualReality，VR）是以计算机技术为核心，结合相关科学技术，生成与一定范围真实环境在视、听、触感等方面高度近似的数字化环境，用

人机交互技术

户借助必要的装备与数字化环境中的对象进行交互作用、相互影响，可以产生亲临对应真实环境的感受和体验。

虚拟现实是人类在探索自然、认识自然过程中创造产生，逐步形成的一种用于认识自然、模拟自然，进而更好地适应和利用自然的科学方法和科学技术。

虚拟现实技术具有很强的应用性。

军事方面，将VR技术应用于军事演练，带来军事演练观念和方式的变革，推动了军事演练的发展。

如美国的SIMNET、

ACTDSTOW、WARSIM2000和虚拟之旗2006等一系列分布式虚拟战场环境。

医学方面，VR技术已初步应用于虚拟手术训练、远程会诊、手术规划及导航、远程协作手术等方面，某些应用已成为医疗过程不可替代的重要手段和环节。

工业领域方面，VR技术多用于产品论证、设计、装配、人机工效和性能评价等。

代表性应用，如模拟训练、虚拟样机技术等已受到许多工业部门的重视。

教育文化领域方面，VR已经成为数字博物馆/科学馆、大型活动开闭幕式彩排仿真、沉浸式互动游戏等应用系统的核心支撑技术。

纽约大都会博物馆、大英博物馆、俄罗斯冬宫博物馆和法国卢浮宫等都建立了自己的数字博物馆。

图9-3VR参观卢浮宫概念图

●智能用户界面

智能用户界面（IntelligentUserInterface，IUI）是致力于改善人机交互的高效率、有效性和自然性的人机界面。

它通过表达、推理，按照用户模型、领域模型、任务模型、谈话模型和媒体模型来实现人机交互。

智能用户界面主要使用人工智能技术去实现人机通信，提高了人机交互的可用性：

如知识表示技术支持基于模型的用户界面生成，规划识别和生成支持用户界面的对话管理，而语言、手

2019人工智能发展报告

势和图像理解支持多通道输入的分析，用户建模则实现了对自适应交互的支持等。

当然，智能用户界面也离不开认知心理学、人机工程学的支持。

智能体、代理（Agents）在智能技术中的重要性已“不言而喻”了。

Agent是一个能够感知外界环境并具有自主行为能力的以实现其设计目标的自治系统。

智能的Agent系统可以根据用户的喜好和需要配置具有个性化特点的应用程序。

基于此技术，我们可以实现自适应用户系统、用户建模和自适应脑界面。

自适应系统方面，如帮助用户获得信息，推荐产品，界面自适应，支持协同，接管例行工作，为用户裁剪信息，提供帮助，支持学习和管理引导对话等。

用户建模方面，目前机器学习是主要的用户建模方法，如神经网络、Bayesian学习以及在推荐系统中常使用协同过滤算法实现对个体用户的推荐。

自适应脑界面方面，如神经分类器通过分析用户的脑电波识别出用户想要执行什么任务（该任务既可以是运动相关的任务如移动手臂，也可以是认知活动如做算术题）。

●自然语言人界交互

在“计算机文化”到来的社会里，语言已不仅是人与人之间的交际工具，而且是人机对话的基础，是最自然的一种人机交互方式。

自然语言处理（NaturalLanguageProcessing,NLP）是使用自然语言同计算机进行通讯的技术，因为处理自然语言的关键是要让计算机“理解”自然语言，所以自然语言处理又叫做自然语言理解（NaturalLanguageUnderstanding,NLU）。

近年来自然语言理解技术在搜索技术方面得到了广泛的应用，现在，已经有越来越多的搜索引擎宣布支持自然语言搜索特性，自然语言人机交互界面在智能短信服务、情报检索、人机对话等方面也具有广阔的发展前景和极高的应用价值，并有一些阶段性成果出现在商业运用中。

9.3人才概况

●全球人才分布

学者地图用于描述特定领域学者的分布情况，对于进行学者调查、分析各地区竞争力现况尤为重要，下图为人机交互领域全球学者分布情况：

人机交互技术

图9-4人机交互技术全球学者分布

地图根据学者当前就职机构地理位置进行绘制，其中颜色越深表示学者越集中。

从该地图可以看出，美国的人才数量优势明显且主要分布在其东西海岸；欧洲也有较多的人才分布；亚洲的人才主要集中在日韩地区；其他诸如非洲、南美洲等地区的学者非常稀少；人机交互领域的人才分布与各地区的科技、经济实力情况大体一致。

此外，在性别比例方面，人机交互领域中男性学者占比84.6%，女性学者占比15.4%，男性学者占比远高于女性学者。

人机交互领域学者的h-index分布如下图所示，大部分学者的h-index分布在中低区域，其中h-index在20-30区间的人数最多，有842人，占比42.1%，50-60区间的人数最少，有136人。

900

800

700

600

500

400

300

200

100

0

>6050-6040-5030-4020-30<20

h-index

图9-5人机交互技术学者h-index分布

2019人工智能发展报告

●中国人才分布

我国专家学者在人机交互领域的分布如下图所示。

通过下图我们可以发现，京津地区在本领域的人才数量最多，其次是长三角和珠三角地区，相比之下，内陆地区的人才较为匮乏，这种分布与区位因素和经济水平情况不无关系。

同时，通过观察中国周边国家的学者数量情况，特别是与日韩等地相比，中国在人机交互领域学者数量较少。

图9-6人机交互技术中国学者分布

中国与其他国家在人机交互领域的合作情况可以根据AMiner数据平台分析得到，通过统计论文中作者的单位信息，将作者映射到各个国家中，进而统计中国与各国之间合作论文的数量，并按照合作论文发表数量从高到低进行了排序，如下表所示。

表9-1人机交互领域中国与各国合作论文情况

合作国家

论文数

引用数

平均引用数

学者数

中国-美国

142

3505

25

375

中国-日本

22

371

17

45

中国-英国

20

207

10

59

中国-新加坡

16

279

17

45

中国-德国

11

224

20

39

人机交互技术

中国-加拿大

10

35

4

21

中国-芬兰

9

26

3

22

中国-澳大利亚

8

193

24

20

中国-法国

7

174

25

20

中国-荷兰

6

140

23

13

从上表数据可以看出，中美合作的论文数、引用数、学者数遥遥领先，表明中美间在人机交互领域合作之密切；此外，中国与欧洲的合作非常广泛，前10

名合作关系里中欧合作共占5席；中国与美国，中国与法国合作的论文平均引用数都达到了最高，说明在合作质量上中美、中法合作达到了较高的水平。

9.4论文解读

本节对本领域的高水平学术会议及期刊论文进行挖掘，解读这些会议和期刊在2018-2019年的部分代表性工作。

这些会议和期刊包括：

ACMCHIConferenceonHumanFactorsinComputingSystemsACMSymposiumonUserInterfaceSoftwareandTechnologyACMInternationalConferenceonUbiquitousComputingInternationalJournalofHumanComputerStudies

ACMTransactionsonComputer-HumanInteraction

我们对本领域论文的关键词进行分析，统计出词频Top20的关键词，生成本领域研究热点的词云图，如上图所示。

其中，用户（users）、虚拟现实（virtual

2019人工智能发展报告

reality）、增强现实（augmentedreality）是本领域中最热的关键词。

论文题目：

Guidelinesforhuman-AIinteraction

中文题目：

人工智能交互指南

论文作者：

SaleemaAmershi,DanWeld,MihaelaVorvoreanu,AdamFourney,BesmiraNushi,PennyCollisson,JinaSuh,ShamsiIqbal,PaulN.Bennett,KoriInkpen,

JaimeTeevan,RuthKikin-Gil,andEricHorvitz

论文出处：

ACMCHIConferenceonHumanFactorsinComputingSystems2019（CHI2019）

论文地址：

https:

//doi.org/10.1145/3290605.3300233研究问题：

人工智能（AI）领域的快速发展给用户界面和交互设计带来了新的机遇和挑战。

虽然人机交互届对人和AI交互的原则原理已经进行了20多年的探讨，我们仍需要更多的研究和创新来解决人工智能新技术及其面向人类的应用不断涌现而带来的新科学及社会问题。

作者提出了18条具有通用性的、可适用于多种应用场景的、针对人和AI交互的设计指导，指出现有知识的空缺及未来的探索方向。

这份指南不仅为AI设计师提供了具体、可操作的建议，还旨在推动用户体验和工程开发从业者就设计决策的相关问题展开讨论，推动这一领域研究的

研究方法：

文章提出了18条人工智能交互设计指导，并进行多轮的实例评估来验证其

有效性，包括通过一个用户实验，邀请48位设计师以这些设计指导为工具来测试20项广泛使用的有AI技术支持的用户产品。

指南内容包括：

G1.帮助用户清晰的理解AI系统的能力所及；G2.帮用户树立对AI系统表现（如出错率）的正确期待。

：

G3.根据上下文设计好服务响应和中断的时机；G4.显示与上下文（用户当前任务及环境）相关的信息；G5.确保用户体验与其社会及文化规范相一致；G6.切实减少AI系统的语音及行为中可能存在的刻板印象和偏见。

G7.保证需要时能容易且迅速的激活或请求AI系统的服务；G8.保证能够方便的取消或忽略不适当的AI系统服务；G9.保证AI系统出错

人机交互技术

时用户可以对其进行编辑、修改、或者恢复设置；G10.AI系统在不确定用户需求或目的时可进行适当问询或者以得体的方式降级服务；G11.向用户适当解释AI系统的行为及背后依据。

G12.记住用户最近的交互模式，通过短期记忆提升使用效率；G13.学习用户长期的行为模式，提供个性化的体验；G14.降低AI系统升级或进行自适应调整时可能给用户带来的干扰；G15.引导用户在日常使用过程中向AI系统反馈其交互体验及偏好；G16.及时向用户传递其行为可能对AI系统将来的服务带来的影响；G17.让用户能够在全局层面定制AI系统对数据的监测及其行为模式；G18.将AI系统的变更适时通知给用户。

本文着重于在用户界面审查过程中可以很容易评估的设计指导意见。

因此，没有包含诸如“建立信任”这样的抽象原则，而是侧重可观测的、可能可以帮助建立信任的具体措施。

过去的工作也提出了不少影响人和AI交互系统可用性的设计方针，但主要适用于AI模型建立阶段。

未来可以进一步加强设计师和AI工程师的合作，在实际应用中进一步理解如何更好的评定不同指导意见的优先级并平衡各方面的用户体验。

研究结果：

本文通过三轮的评估，从150多条AI相关的设计建议中提取并验证了18条针对人与AI交互领域的通用设计指导意见。

随着越来越多的科技应用以AI作为驱动力，本文希望能通过推广这些设计指导实现真正以人为本的AI交互系统。

本文研究整合了人机交互届对人工智能交互设计20多年的探索、思考、经验和教训，是一篇非常及时的综述性文章。

不同于时下对于如何让AI模型更可用的针对AI从业人员研究，作者从设计师的角度出发，侧重讨论了在交互设计过程中需要注意的问题。

另外，在提出设计指导意见时很好的权衡了适用范围以及可操作性，为其结果真正在实际应用中推广奠定了良好的基础，有着现实的指导意义。

2019人工智能发展报告

论文题目：

VoiceInterfacesinEverydayLife

中文题目：

日常生活中的语音交互界面

论文作者：

ACMCHIConferenceonHumanFactorsinComputingSystems2018（CHI2018）

论文出处：

CHI2018,April21–26,2018,Montreal,QC,Canada

论文地址：

https:

//doi.org/10.1145/3173574.3174214研究问题：

随着越来越多智能产品内嵌语音交互界面（后简称VUI），工业界和学界产出了不少计算语言学或自然语言理解方面的研究成果，但却鲜有语音交互设备在生活场景中的实证使用调研。

作者以此空白为契机，着重调研了语音交互和其他日常活动并行时的用户反馈，以及多方对话场景下的话论顺序处理。

文章也涉及更为宽泛的三个领域：

VUI发展进程，VUI调研中的会话分析，设计、部署和研究VUI时需要的方法论。

研究方法：

该研究沿用HCI文献中普遍的常人方法学和会话分析方法，记录了五户家庭一个月内使用Echo音箱的数据，收集了用户与机器六小时的对话语料进行解读。

唤醒语音助手后，祈使指令和提问是常见的两种触发形式。

对语音助手的指令会开启和机器间的话论转换；未收到音时的静默能推动话论前进；用户自发纠正说法也能推动话论延续。

语音设备回复后，用户会有后续反馈，本文暂且讨论三种形式：

静默也是用户的回复方式；用户会明确指出问题；用户也会纠正会话。

作者不认为语音交互的界面本质是对话的，用“对话界面”来命名基于语音的人机交互方式也不妥当。

日常对话中的话论转换和毗邻对是自然产生的，而语音交互界面中的问法其实会刻意迎合会有的答案。

因此，作者主张把任务型的

VUI设计称为请求/回复设计，而非对话设计。

研究结果：

人机交互技术

本文通过解读真实场景中和音箱的交互语料，展现了语音设备是如何并行参与到家庭对话中的；也发现除却设备自身的功能可用性，用户在社交场景中的行为也要为最终的VUI效果负责；同时本文还探讨了用户使用VUI时的触发和接应方式；最后提出三点概念性问题为后续VUI的设计和研究提供方向。

本文研究可谓填补了语音设备在真实场景中的调研空白。

除此之外，很多易于被忽视的事实也被作者拎了出来。

技术人员常常关注语言计算，业界设计师常常掉入逻辑或话术细节，鲜有人高屋建瓴地研究VUI使用情况。

诸如静默也能推动话论前进、“对话设计”的命名纠正、关照用户发问的易用性等观点都是“跳出了盒子”的崭新思考。

论文题目：

TipText:

Eyes-freeTextEntryonaFingertipKeyboard

中文题目：

指尖上的键盘：

可盲打的指尖键盘输入法

论文作者：

ZheerXu,PuiChungWong,JunGong,Te-yenWu,AdityaNittala,XiaojunBi,JürgenSteimle,HongboFu,KeningZhu,Xing-DongYang

论文出处：

ACMSymposiumonUserInterfaceSoftwareandTechnology2019（UIST2019）

论文地址：

https:

//doi.org/10.1145/3332165.3347865研究问题：

随着可穿戴设备以及普适计算的普及，人们越来越需要一种易于携带且跨平台通用的输入设备来进行交互。

与此同时，基于拇指和食指指尖的微手势作为一种新型的跨平台交互方式有着得天独厚的优势：

快速，简单易学（把食指指尖当作触摸板，用大拇指进行点击）而又隐蔽（有利于保护隐私）。

这使得微手势特别适合输入空间十分有限的可穿戴设备。

本文的主要目标就是为基于微手势的文字输入设计一种合理而高效的盲打键盘来论证可行性，并通过用户实验证明了这种输入方法可以达到理想的输入效率（在完成40个短句后速度可以达到每分钟

最高约13.9个单词）。

研究方法：

2019人工智能发展报告

本研究使用用户调研（userstudy）的数据采集方法和基于用户盲打数据的计算机仿真（computer-basedsimulation）来为微手势盲打键盘挑选出最好的键盘布局，并使用统计解码（statisticaldecoding）方法来实现文本输入，最后通过用户评估实验（userevaluation）来衡量整个输入法系统的性能。

本文将字母聚合的概念针对性地引入到指尖键盘上（即每个键对应多个字母，类似于传统的9键键盘），并和触控屏上文字输入的统计解码器创新性结合在一起，克服了高混淆度对文字输入效率的影响。

本文选择了基于计算机模拟的计算设计（computationaldesign）方法：

通过先采集少量用户数据，再使用计算机进行大规模模拟用户输入的方式来量化评价每个候选布局。

这样的流程提高了对用户数据的利用效率，从而在一个极大的设计空间中科学而高效地寻找到了最符合人类行为模型的最优解；

在采集用户数据的时候，本文开创性地采用了“在虚拟世界中重构现实世界”的方法：

通过将动作追踪系统和3D游戏引擎结合的方式来精确追踪拇指指尖和食指指尖的运动轨迹，从而计算出两者接触时的碰撞点。

这种方法将传感器对用户行为的潜在影响降低到最小，最大程度保证了实验结论的严谨性。

研究结果：

本文通过开创性地将新兴的微手势交互技术运用到生活中常见的文字输入任务上，证明了在指尖键盘上进行文字盲打的可行性，不仅进一步打开了应