智能语音行业深度研究报告.docx
- 文档编号:25248562
- 上传时间:2023-06-06
- 格式:DOCX
- 页数:46
- 大小:7.95MB
智能语音行业深度研究报告.docx
《智能语音行业深度研究报告.docx》由会员分享,可在线阅读,更多相关《智能语音行业深度研究报告.docx(46页珍藏版)》请在冰豆网上搜索。
智能语音行业深度研究报告
(此文档为word格式,可任意修改编辑!
)
正文目录
图目录
表目录
1.Echo为什么这么火?
1.1.Echo是什么?
2016年,亚马逊公司智能音响产品Echo成为了智能家居市场的一匹“黑马”。
亚马逊于2014年11月在官网低调的推出Echo音响,推出的用意是结合自身电商平台,增加用户在亚马逊平台消费。
相比于之前Amazon重点发展的FirPhone手机项目,Echo开发之初并没有受到太多关注。
Echo设计之初要求必须要以语音的方式与用户进行交互,必须理解用户的语义并用语音的方式通知用户。
这个想法也贯穿了整个Echo的开发过程,打开了人机交互新的革命方式。
2014年下半年,Echo设计团队对于Echo的思考有了一个质的飞跃,亚马逊开始将Echo视为一个物联网平台,而不仅仅是一个智能音响。
这也使得亚马逊总裁贝佐斯对于Echo的开发更为重视起来。
从那个时候起,Echo更多的被看做一个智能家居中控平台。
Echo推向市场之后,陆续开启大量的第三方功能,例如调节家居照明、预报天气、创建购物清单、点餐、控制车辆等等。
Echo可以被设置为对2个“唤醒”名字中的一个做出响应,分别是“Alexa”以及“Amazon”。
用户必须在每次请求前加上相应的唤醒词才可以命令设备。
Echo对于命令的辨识率非常高,用户可以按照自己的语言习惯发布命令,而不需要刻意简化命令的措辞。
比如说“Alexa,我想打开房间的灯”,Echo在几秒之后就会执行命令。
图1:
Echo设计结构
为保证语音识别的效率,Echo采用的是6+1麦克风阵列。
麦克风阵列是放置在空间中不同位置的多个麦克风。
根据声波传导理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。
利用这种方法,麦克风阵列可以将噪声环境中特定声音信号有效的增强。
由于麦克风阵列技术具有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向。
1.2.Echo在北美大受欢迎,销量超过市场预期
Echo最初只针对亚马逊prime用户推出,后来才逐步推向市场。
随着Echo的市场化,Echo的销量急速上升,2015年Echo占据了音响市场25%的份额。
并且在整个智能家居市场,Echo也已经成为了最火热的产品。
根据CIRP的报告,自2014年11月发布到2017年1月,亚马逊Echo系列(包括Echo、EchoDot和Tap)用户已达到820万,同比增长2倍,较2016年11月时的数据增长60%。
而公司2017年的销量目标是1000万。
销量激增的背后是Echo正迅速从早期用户的小众圈子进入大众市场。
图2:
Echo预计销量(百万台)
1.3.Echo好评如潮
在销量激增的同时,用户对于Echo系列产品的认知度也大幅提升。
根据CIRP的数据显示,2015年3月,公众对于Echo设备的认知率为20%,而到了2016年9月,用户对于Echo的认知率超过了69%。
图3:
Echo公众认知度
在亚马逊的官网上,我们可以看到购买用户对于所买产品的评价。
Echo产品的平均得分在4.4/5,有85%的用户打分在4星以上。
这也从侧面显示了用户对于Echo系列产品的认可。
图4:
Echo用户好评率
1.4.为什么Echo在欧美那么火
从期初的默默无闻到成为现在市场上最火热的产品,我们认为Echo成功的原因主要有以下几点:
采用语音交互的方法打造产品。
语音交互是最新一代的交互形式。
苹果、谷歌就已经很早在自身手机平台上布局语音交互。
相比于苹果、谷歌手机的多种交互方式并存,Echo则只提供了语音交互一种方式,并且保持了很好的用户粘性。
定位于家庭。
Echo最初定位与家庭是语音交互的天然使用场景。
在办公或者公共环境下,基于安静或者安全的考虑,往往很难使用语音交互。
但是在家庭中,用户则会毫无阻碍的使用语音交互。
并且,Echo只有语音交互一种模式,正好培养了用户习惯以及用户粘性。
Echo以音乐为突破口,满足用户生活需求。
Echo以智能音响的方式出现,正好贴合了用户生活中的使用需求。
智能音响市场保持快速增长,增速是手机的三倍。
并且智能音响行业并没有手机行业中像谷歌、苹果那样的巨头。
IDC报告指出,2014年全球无线音响市场规模为69亿美元,到了2022年,这一数字将达到385亿美元。
图5:
家庭多媒体设备中无线音响增速领先
图6:
无线音响销售量(万台)
系统开放带来更多的第三方应用。
Echo早早的开放了自己的语音系统,使其更多的作为第一个平台搭载更多不同的功能。
Echo目标将自己打造为一个平台,而不仅仅是一个智能音响设备。
根据CIRP对Echo用户的统计显示,只有40%的用户用它来播放音乐,有1/3的用户用它来查询信息或者回答问题。
同时有10%的用户用来控制家电,并且越来越多的用户正在使用智能音响来链接和控制家中的设备。
图7:
Echo用户使用情况
1.5.Echo背后是亚马逊智能语音助理Alexa
语音作为Echo的唯一交互方式,背后是由亚马逊开发的Alexa智能语音助理作为技术支撑。
Alexa预装在Echo内部,可以接受语音指令。
Alexa就是亚马逊版的Siri,主要分为语音识别和语音合成两个环节。
语音识别主要由信号处理、声学模型、解码器和后处理。
将从麦克风收集来的声音,进行一些信号处理,将语音信号转化到频域,从每10毫秒的语音中提出一个特征向量,提供给后面的声学模型。
声学模型负责把音频分类成不同的音素。
接下来就是解码器,可以得出概率最高一串词串,最后一步是后处理,就是把单词组合成容易读取的文本。
Alexa语音合成步骤一般为:
第一步,将文本规范化。
第二步,把字素转换成音素,由此得到音素串。
第三步是关键的一步,也是最难的一步,就是将音素生成波形,也就是真正的声音。
最后,就可以把音频播放出来了。
亚马逊使用了数小时人的自然发音音频,然后将其切割成非常小的片段,由此组成一个数据库。
最终语音整合起来时调用数据库音频使得声音效果相对较好。
图8:
语音识别步骤
图9:
语义分析步骤
1.6.Alexa开放语音平台,CES收到热捧
2015年6月,亚马逊宣布将Alexa开放给第三方开发者,并且围绕平台建设投入大量资金。
Alexa发布了AlexaSkillKit(ASK)和AlexaVoiceService(AVS)两套工具,更好的方便第三方开发者使用Alexa,也加快了Alexa的平台建设。
表1:
亚马逊聊天机器人平台
AVS是指可集成Alexa的API到其他嵌入式设备中。
如果智能设备制造商的产品拥有扬声器和麦克风,就可以通过简单的开发将Alexa语音驱动添加至产品中,产品用户即可通过麦克风和扬声器与Alexa的实时语音互动。
图10:
AVS模式
ASK是指产品可被集成AlexaVoiceService的设备所控制,能够快速便捷的使产品成为“workwithAlexa”的一部分。
同时可通过开发让Alexa拥有更多交互功能,并将其加入智能设备中,所有的这些操作都可在云端进行。
图11:
ASK模式
亚马逊将Alexa(Echo)具有的第三方开发的功能称之为技能。
由于亚马逊开放平台的特点,现在Echo所掌握的技能从2015年的130多项增长到了目前的10000多项。
同时,也推动了各大硬件厂商争相开发搭载Echo智能语音系统的智能设备。
图12:
亚马逊第三方应用
在2017年国际电子消费展(CES)上,虽然亚马逊没有参展,但是依然是大会最受瞩目的公司。
Echo也是最受大家关注的产品。
众多参展厂商纷纷推出搭载Alexa的智能设备。
比如说华为的Mate9,LG的HubRobot,惠而浦的洗衣机、电冰箱等。
表2:
CES展上使用Alexa技术产品
2.为何巨头都在布局智能语音?
2.1.IT巨头新风向:
智能语音
在智能语音系统行业中,Nuance曾经是行业中绝对的龙头。
但如今,各大IT巨头都已着力布局自己的智能语音产品。
苹果早在iPhone4S时代便推出了搭载在手机平台上的语音系统Siri。
谷歌很早推出了语音服务系统GoogleNow,最近又推出了带有智能语音设备的家居产品Googlehome,并且发布了语音助手GoogleAssistant。
微软推出了语音系统Cortana、小冰聊天机器人等。
Facebook也已经开始测试旗下智能语音助手“MoneyPenny”。
国内的各大IT巨头也不甘示弱,纷纷进入智能语音行业。
XX开发“XX大脑”以及语音服务系统“度秘”,
阿里的人工智能ET也将语音交互作为重要技能。
表3:
IT公司在智能语音行业动作频频
2.2.每一个交互时代,都有对应的应用形式
随着人工智能的发展和深度学习技术的使用,语音识别准确率已经达到了95%以上。
计算机和智能终端的界面正在从“键盘+鼠标”变为“麦克风+按钮”,也就是自然语言入口的方式。
这种转变实际上是交互模式的变革。
图13:
“Touch1.0(键盘)Touch2.0(鼠标)Touch3.0(触屏)语音”发展历程
交互模式的变革贯穿了整个IT产业的发展史。
交互模式的转变直接体现在输入输出的形式上。
从最初的键盘交互时代,以DOS命令形式输入为主;随着苹果和微软PC图形界面的诞生,进入了“鼠标+键盘”时代,开始通过图形界面(GUI)进行输入输出。
2007年,乔布斯推出的iPhone手机重新定义了手机,也将计算机带入了移动互联网触屏交互时代,直到现在,用户绝大部分的交互方式都是通过手机app产生的。
现如今,聊天机器人的出现则标志着自然语言交互时代的开始。
Nuance公司首席科学家卡普兰认为:
“图形用户界面已经到达极限,
现在已经处于超载的边缘”。
而新的交互时代就是为了让用户从纷繁复杂的界面窗口、工具栏以及菜单选项中解脱出来,和终端设备建立便捷、高效的联系。
表4:
交互方式的转变
2.3.交互时代的变革往往是重新建立生态、弯道超车的机会
每一次交互模式的变革都是IT产业的一次重新洗牌。
微软GUI操作系统Windows3.0的出现一扫之前windows系统销售的阴霾,前两个月便销售300万套,奠定了微软操作系统的行业地位。
网景浏览器的推出彻底将大众带入了互联网世界,而苹果iPhone的出现结束了诺基亚、摩托罗拉手机的市场地位,两家曾经的手机巨头分别于2014年4月和2011年8月被微软以及谷歌收购。
新一代交互革命是随着智能硬件的普及而掀起的。
在即将到来的人工智能时代,语音是最受投资人看好的交互方式。
VetureBeat在去年6月22日调查发现,AI创始人和高管普遍认为未来5年内最先爆发的AI应用就是聊天机器人平台。
聊天平台主要具有以下几点优势:
1、聊天平台超强的用户时间粘性使得在聊天场景其中增加一些服务功能符合用户体验便捷化的方向,而微信最早通过公众号发现用户并不反感聊天应用程序加入服务功能;BIIntelligence数据显示现在4大聊天应用程序的月活跃度已经超过4大社交网络应用。
图14:
聊天应用程序活跃度正在超过社交网络
图15:
AI创始人和高管普遍认为未来5年内最先爆发的应用是聊天机器人
2、iOS和Android平台上的应用程序开发已经饱和,用户需求的本质并非APP的形式而是其背后的服务,越来越多的开发者首选公众号或者语音助手作为其首选的应用服务形式;
3、相对于传统APP机械被动的交互方式,语音更符合人类自然交互的习惯,而聊天机器人可以贴近人们对话的情境做出主动服务,也能给用户更加及时的反馈,随着语音图像识别、自然语言理解等人工智能技术的进步,这种体验将愈发完善;
4、对于各大巨头来说这是摆脱苹果和安卓商店生态的绝佳机会,竞相在聊天平台中打造第三方应用生态,客观上加快了这一趋势的形成。
微软公司专注新的人机交互革命,此次核心变革就是“对话及平台”(CaaP)。
此前,前微软全球执行副总裁陆奇表示:
每一次信息科技的大时代都伴随着交互的革命。
第一次,是当个人电脑崛起时,图形用户界面成为用户交互的接口。
那个时代的推动者以微软、苹果为代表。
第二次,当互联网崛起时,人们开始通过搜索引擎和浏览器与世界连接。
谷歌成为了第二个时代的代表。
而真正的第三个大时代,是人工智能的时代。
而它的核心革命,就是“对话即平台”的崛起(ConversationsasaPlatform(CaaP))。
未来人工智能的方向是能够实现人机自然交互,通过语音、图像而不再是文字、手机键盘作为输入口,真正实现CaaP。
届时,CaaP将会处于后台,通过人机自然交互,以此来获取服务。
它真正体现在你的面前,就是在各个细分领域里的实用产品,比如说无人驾驶的汽车,或者是能够智能决策的电商类产品。
3.智能语音产业完备,未来互联网新“操作系统”
3.1.下一个风口:
智能语音技术
智能语音技术快速发展。
语音技术经过几代科学家几十年的改善研究,随着近几年神经网络技术(ANN、DNN)的使用,语音技术准确率得到了质的提升,也使得语音技术能够为人类所用。
智能语音技术按照发展可以分为四个阶段:
20世纪50-70年代是技术萌芽阶段,贝尔实验室、普林斯顿大学等科研机构做了大量的研究,开发了很多技术;20世纪80年代是技术突破阶段,随后直至20世纪初,智能语音进入产业化阶段。
各个智能语音项目开始产业化运营;2010年至今是快速应用阶段,智能语音技术已经深入用户生活之中。
苹果的Siri、谷歌的语音搜索、亚马逊的Echo都已经积累了庞大的用户群体。
图16:
语音技术发展历程
智能语音的系统框架包含5个模块。
语音识别模块负责接受用户的语音输入并且将其转成文字交给自然语言理解模块。
自然语言理解模块在理解了用户输入的语义之后将特定的表达输入对话管理模块中。
对话管理模块负责协调各个模块的调用以及维护当前对话状态,并将特定的回复方式交由自然语言生成模块进行处理。
自然语言生成模块生成特定回复文本输入语音合成模块。
语音合成模块负责将文字以语音的方式输出给用户。
图17:
智能语音系统框架图
智能语音技术日趋成熟,识别率从量变到质变。
智能语音识别的准确率稳步增长,从过去的70%提升到现在90%以上。
2016年11月,XX、科大讯飞、搜狗几乎同时宣布自己的语音设备识别率超过了97%。
前XX首席科学家吴恩达认为语音识别在此基础下仍然具有很大的潜力。
如果智能语音识别率达到99%对于行业而言是质的变化。
用户将会从偶尔使用到常常使用到更加自然。
99%的成功率将会彻底改变交互方式。
图18:
语音识别准确率提升
图19:
IT巨头语音识别准确率
3.2.语音交互解决长尾APP入口问题。
智能语音能够解决应用程序弊端。
互联网时代到来之后,应用程序成为了硬件终端必备。
不同的应用程序面向不同的用户,针对不同的需求。
互联网逐渐走向“碎片化”,互联网入口变得极为分散。
同时对于用户而言,每天要面对大量的应用程序。
有需求的时候,打开一个程序,需求改变时又要打开另外一个程序。
而智能语音的出现正好可以将分散的入口整合起来。
而用户也不需要在纠结于繁多的应用程序。
我们以手机为例,看看智能语音如何成为移动互联网新入口。
移动应用分割用户需求的弊端导致了智能手机上总是停留了很多使用率非常低的应用程序。
雅虎通过Aviate智能平台得到的数据显示,平均每名Android用户在手机上安装95款应用程序,每天使用的应用仅有35款,其余60款则为“长尾应用”——平时很少用到,某些时刻又需要它,所以一般情况下用户也不会卸载这些App。
2015年,第三方数据服务提供商TalkingData发布《10亿说:
行业精细发展,O2O热度空前》的分析报告显示,全国平均每部移动设备上安装了34款应用,同时,每部设备上平均每天打开应用20款。
图20:
移动APP活跃度
艾瑞咨询数据显示,移动App的生命周期平均只有十个月,85%的用户会在一个月内将其下载的应用程序从手机中删除。
而5个月后,应用程序的留存率只有5%。
根据友盟数据显示,25%移动app在用户使用过一次之后就不在使用了,用户使用超过10次的app只占25%。
图21:
移动APP平均启动次数
语音交互的“allinone”特点恰能解决这个问题。
智能语音识别和生成技术相当于给移动终端装上了嘴巴和耳朵。
语义理解相当于移动终端的大脑。
智能语音技术的应用相当于给手机终端搭建了一个平台,装载了所有终端所需要使用的功能。
让用户从繁多的手机APP中解放出来。
图22:
聊天应用程序成为新的平台
3.3.智能语音设备快速普及,用户渗透率快速增加
智能语音用户普及率现在快速提升。
在美国,目前手机用户使用语音助手的使用比例已经从2013年的30%左右快速攀升至2015年的60%以上,渗透率快速提升一倍以上。
于此同时,16年,谷歌搜索的语音搜索数量较2008年增加35倍以上,较2010年增加7倍以上。
随着语音识别近年来的突破性进展,相关商业应用已经展开。
根据XX披露数据,自2014年Q2以来语音输入增长4倍以上,语音输出增长26倍以上。
图23:
手机用户语音助手使用率
图24:
Google语音业务增长
图25:
XX语音输入输出增长
智能语音硬件设备销量迅猛增长。
Voicelab数据显示,在美国市场,2015、2016年语音硬件设备的销售量分别为150万和650万台,同比增长330%,预计2017年将2450万,同比增长277%。
目前,国际市场上的语音硬件设备主要来自亚马逊和谷歌。
未来,苹果和微软也将分别在Airpods、TV和办公、日程类行业发力。
图26:
美国语音设备销量
各大公司加快了智能语音技术的开发。
对比AppStore和Facebook的聊天机器人平台,我们可以发现,在第三个月到第六个月,聊天机器人的数量同比增长了约170%,而同期App数量只增加了100%。
聊天机器人的发展速度已经超越了App。
同样可以对比两个行业活跃开发者数量对比。
聊天机器人开发者的人数现在远远大于移动应用开发者的人数。
在平台问世的第六个月的聊天机器人的活跃开发者人数是第14个月应用开发人数近3倍。
图27:
聊天机器人和移动应用数量对比
图28:
聊天机器人和移动应用开发者数量对比
智能语音产业规模快速增长。
在各国政府、相关行业及资本界的持续关注之下,智能语音产业得到迅速发展。
一方面,中国、美国、日本等国家及组织积极布局,通过政策引导推动智能语音关键技术的研究和产业化。
另一方面,语音技术厂商和IT巨头大力布局,带动全球智能语音产业规模进一步提升。
据中国语音产业联盟监测数据显示,2014年,全球智能语音市场规模整体达到45.6亿美元,与2013年的33.7亿美元同比增长35.3%。
2017年,全球智能语音市场规模预计将达到105亿美元,较2016年增长30%。
图29:
全球语音产业规模增长
2015年中国智能语音产业规模达到40.3亿元,较2014年增长41.0%,2016年中国语音产业规模达到59亿元,预计2017年中国语音产业规模将超过100亿元。
远远高于全球市场增速。
图30:
中国语音产业规模(亿元)增长
3.4.智能语音产业链完善,巨头打造生态平台
智能语音产业链完善。
主要有核心技术开发、知识库提供以及应用、服务三个层面。
核心技术开发主要包括语音交互技术提供商、平台支撑提供商以及人工智能机器人提供商三个部分,知识库提供主要是指数据和内容(包括影视、股票、餐饮、旅游等)提供商。
应用、服务主要包括智能家居、个人语音助手、车载设备、可穿戴设备等平台。
图31:
智能语音产业链
图32:
智能语音传统行业企业
亚马逊Alexa之后,世界电子各大巨头公司也纷纷围绕智能语音打造新的平台。
谷歌、微软、Siri已经先后开放自身的语音平台。
表5:
各大公司着力发展智能语音平台
2015年12月,科大讯飞发布一整套的语音交互解决方案AIUI。
AIUI集成了科大讯飞在双全工技术、麦克风阵列技术、声纹识别技术、方言识别、语义理解技术和内容服务等技术和服务。
该技术的核心是智能化的多轮对话管理和上下文理解。
AIUI相当于科大讯飞定义的语音交互的标准,科大讯飞将语音识别、对语音的思考理解贯穿起来,AIUI就是一套软硬一体的模块方案。
针对聊天机器人,AIUI可以做聊天机器人的场景定制,还可以做一些智能家居服务的定制。
图33:
AIUI场景应用
3.5.中国智能语音技术蓬勃发展
论文、专利数量快速增长。
伴随着人工智能技术的飞速发展,中国在人工智能核心技术——深度学习环节的论文数量以及论文引用量已经位列世界第一。
而中国在智能语音技术专利数量方面也在逐年增加,2013、2014年每年的专利数量大约在700件左右。
图34:
各国深度学习主要论文数量
图35:
各国深度学习论文平均引用量
图36:
中国语音产业专利数量
庞大的用户群基础以及互联网系统优势明显,国内公司已经占据一席之地。
国内用户群数量巨大,互联网用户群体稳定在10亿以上。
结合国内互联网近10年来飞速发展形成的规模优势以及高效的人才和资金制度,国内在智能语音行业诞生了一批明星公司。
并且掌握核心算法技术,准确率都已在90%以上。
国内语音公司领跑者科大讯飞旗下讯飞智能语音与人工智能平台为包括QQ、高德地图、滴滴出行、携程、大众点评、新浪微博等在内的13万+合作伙伴提供服务,覆盖终端用户数超过7亿,在线日服务量达15亿次。
目前为止,国际智能语音市场,Nuance、谷歌、苹果、微软以及科大讯飞分别占有31.6%、28.4%、15.4%、8.1%
以及4.5%的市场份额。
科大讯飞已经超越老牌计算机巨头IBM位列全球第五。
表6:
国内各大互联网公司语音识别技术特点
图37:
国际语音市场占有率
目前,中国语音市场主要份额由科大讯飞、XX、苹果占据。
三家公司分别占据了44.2%、27.8%和6.9%的市场份额。
在2015年宝马举行的全球语音识别大赛中,科大讯飞排名第一。
图38:
国内语音市场占有率
4.智能语音加速各大行业革新,切入行业核心模块
智能语音系统能够快速切入各个场景,进而影响整个行业变革。
智能语音产业链可以分为基础层、技术支持层、场景应用层三个层面。
基础层就是各个人工智能公司研发的语音技术。
语音技术的开发需要顶尖的技术团队、海量数据来源、超大的计算量。
要同时实现的难度非常大,所以智能语音技术通常只会掌握在几个行业巨头手中。
技术支持层则是各大公司将智能语音用于一个场景或者领域,往往会和传统行业联系起来,比如前文提到的Echo就是亚马逊将语音技术和音响结合应用于家居行业。
类似的还有XX“度秘”机器人、苹果Siri等等。
应用层就是语音交互技术应用到各个行业,改进行业流程,促进行业变革。
图39:
智能语音行业发展情况
4.1.Echo核心应用场景——智能家居
Echo音响是实现智能家居的重要组成部分。
Echo音响作为第三方平台已经拥有了超过10000项“技能”,包括安全、娱乐、饮食、健康等等。
这些“技能”很多是用户日常生活中必不可少的部分。
Echo音响正在成为一个装载整个智能家居的平台,Echo利用自己的语音交互入口将之前分散的家电、移动设备整合成了一个有机的整体。
随着技术的发展,智能家居的入口将由现在的被动输入转化为以智能语音交互为代表的主动捕捉用户需求的方式。
届时,Echo就有望成智能家居的入口和中控平台。
图40:
什么是智慧家庭
图41:
智能家居概念图
智能家居行业高速发展,用户渗透率快速增长。
到20
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智能 语音 行业 深度 研究 报告