换一换

冰豆网 > 资源分类 > DOCX文档下载

预览

基于视频的人机交互技术研究论文.docx

资源ID：5957735 资源大小：1.43MB 全文页数：42页
资源格式： DOCX 下载积分：12金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要12金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

基于视频的人机交互技术研究论文.docx

1、基于视频的人机交互技术研究论文摘要人机交互（Human-Computer Interaction）主要研究人、计算机以及彼此之间互相影响的有关技术。视觉语言（包括手势和面部表情）作为一种自然的人-人信息交互的辅助方式，具有所见即所得、自然方便等优点，因此在新一代“以人为中心”的智能人机交互中得到了广泛的关注。此次课题就是在这一方面做的一些尝试和探索，其中选择了基于手势的人机交互方式做研究，由于手势具有多样复杂性以及时空的差异性，因此，基于视觉的手势识别是一个极富挑战性的多学科交叉难题。手势一般隐藏了一定的信息，我们需要对手势进行识别，得到其表达的含义，从而控制人机交互的实施。本文实现了一个利

2、用视频手势提取进行人机交互的原型系统，大致可分为四个部分：视频采集和分离、图像预处理、手势提取和识别、人机交互。其中的关键部分是手势的提取和识别，手势提取需要采用图像处理的方法，而手势势识别采用的则是决策树的方法，通过对手势几何特征的分析和决策来判定手势类型。采用以上方法对一段视频进行实时处理和分析，进而实现人机交互。其中主要的交互功能可以实现，实时性也较好，准确性也较高，不过该方法的鲁棒性不是很好，对光照强度较敏感。关键词：人机交互，手势识别，图像处理，几何特征 Abstract HumanComputer Interaction(HCI) is the technology of rese

3、arching the interaction of human and computer, Visual language(gesture and face look) is a assistant human to human mutual method, it has the advantage of so called what you see is what you get, and the most important is that its a natural way. in view of these advantage, the researchers has put muc

4、h focus on this aspect. the paper aims at doing some work on it. I select the item of HCI based on gesture recognition as my target. the gesture recognition is a challenging problem owe to the complexity and variety of gestures. Generally speaking, The gestures contain some information in them, what

5、 we need to do is founding it. in this paper, it mainly involved the analyse of static gesture, and we must find the inherent clue, if we get it, then we can make use of it to control the HCI. in this paper ,the whole project can be separate into four parts: they are capturing and separating the vid

6、eo、image Preprocess、 acquiring and recognising the gesture 、the human computer interaction. the key part is acquiring and recognising the gesture. the gesture capture applys the theory of image processing, while gesture recognition applys the theory of decision-tree. In the experiment, I acquired th

7、e video stream from a usb camera and processed it just as aboved approach. the final result is that it performed as we want. in a word, Its a real-time system, the delay is in the control, and it has high accuracy too, But the robustness of the method is not very good, and its much sensitive to ligh

8、t intensity. KEY WORDS:human-comuter interaction hand gesture recognition Image processing Geometry features 目录第一章绪论1.1 人机交互概述 41.2 手势识别概述 51.3 国内外研究现状 61.4 本论文所做的工作及论文安排 7第二章基于视觉的手势识别技术基础2.1 手势建模. 82.2 手势分割 112.3 手势分析 112.4 手势识别 122.5 本章小结 14第三章基于视频的人机交互设计3.1 总体框架设计 153.2 图像获取及预处理 163.3 手势提取和识别

9、 233.4 人机交互 283.5 本章小结 29第四章方案实现与结果分析4.1 程序运行环境. 304.2 程序界面设计和主要功能. 314.3 程序运行结果以及分析. 364.4 本章小结. 37总结和展望. 38致谢. 39参考文献. 40第一章绪论1.1 人机交互概述人机交互（Human-Comuter Interacton）是研究人、计算机以及它们之间相互影响的技术，人机交互技术是当前信息产业竞争的一个焦点，世界各国都将人机交互技术作为重点研究的一项关键技术，美国总统信息技术顾问委员会的“21世纪的信息技术报告”中1将“人机交互和信息管理”列为新世纪4项重点发展的信息技术(还包括

10、软件、可伸缩信息基础设施、高端计算)之一，它的目标是研制“能听、能说、能理解人类语言的计算机”。我国国家自然科学基金会、国家重点基础研究发展计划(973)、国家高技术研究发展计划(863)等项目指南中，均将先进的人机交互、虚拟现实技术列为予以特别关注的资助项目。人机交互是随着计算机的出现应运而生的，它的发展经历着几个阶段：(1)手工作业阶段，采用手工操作和依赖机器(二进制机器代码)的方法操控笨拙的计算机。(2)作业控制语言和交互控制语言阶段，这一时期计算机的主要使用者是程序员，他们一般通过批处理作业语言和交互命令语言的方式和计算机打交道。(3)图形用户界面(GUI)阶段，GUI的主要特点是采

11、用了窗口、图标、鼠标、指针(WIMP)界面，具有简单，直接和所见即所得等优点。由于GUI简单易学，使得大量的普通用户开始接触计算机，促进了信息产业的空前发展。(4)网络用户界面阶段，以超文本传输协议HTTP和超文本标记语言HTML为基础的网络浏览器是网络用户界面的代表。这类人机交互技术的特点是发展快、范围广，新的技术不断涌现，如聊天工具、搜索引擎等。(5)多通道、多媒体的智能人机交互阶段，以虚拟现实为代表的计算机系统的拟人化和以手持电脑、智能手机为代表的微型化、嵌入化是当前计算机发展的两个趋势，而以鼠标和键盘为代表的GUI人机交互技术是影响其发展的瓶颈。可以利用人的多种感觉通道和动作通道(如语

12、音、手写、姿势、表情和视线等做输入)，以并行的方式与计算机环境进行交互，提高了人机交互的自然性和高效性。总体而言，人机交互的发展历史表明其由以计算机为中心的复杂交互逐渐向以人为中心的简单、自然交互转移。目前的多通道交互(Multi-Modal Interaction,MMI)技术已经取得了不少研究成果，有一部分也已经实现实用化、产品化，比如在文字识别、数字墨水、手势识别。语音合成和识别等方面都有不少研究成果和产品问世。同时现在的智能人机交互也面临着很多挑战，比如“无所不在的计算”，该名词最初由Xerox PARC的首席科学家Weiser于1988年提出，无所不在的计算强调把计算机嵌入到环境或日

13、常工作中去，而人的注意力则集中于任务本身，无所不在的计算是一个长期的目标，涉及到诸多学科(如计算机、生物医学、心理学等)的交叉融合发展。1.2 手势识别概述在 “韦伯斯特大字典”中，手势语言被定义为“用于表达或强调某种观点、感觉或态度的肢体动作”，心理学家和社会学家把它定义为一种人人交互的社会行为。但是在人机交互领域，手势语言应该是能够被智能机器理解的手势动作，手势语言一般可按图1.1分类：图1.1 用于人机交互的手势分类一般而言，手势识别主要分两步进行2：第一步，从背景中正确定位和分割手势图像，第二步，对分离的手势进行分析和识别。其中，第一步定位和分割手势是手势识别的前提和关键，只有手势分

14、离后才能进行手势的识别，同时，良好的手势分割可以减小手势分析的复杂性，手势分割主要运用的是图像处理的内容。手势分析可以看做图像理解的内容，从手势中得到相关的信息。手势识别主要运用了分类器和决策树的相关知识。基于手势图像的采集方式，可以将手势分为两类：基于数据手套的方法和基于视觉的方法；基于数据手套的方法在早期的手势识别研究中应用较多，做手势的人必须戴上装有传感器的数据手套，用来测定手势的轨迹和位置参数等。它的优点是对手势的识别率较高，缺点是不够灵活，并且输入设备较笨重和昂贵。基于视觉的手势识别是现在的研究热点，它的特点是很方便，满足自然的人机交互发展趋势，同时作为输入设备的摄像机、图像采集卡也

15、较便宜。它的缺点是识别率较低，并且系统的实时性不是太好，目前人们正在研究各种识别算法来改善识别的精度和速度。手势识别的研究可以应用2于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面，同时也有助于改善和提高聋哑人的生活学习和工作条件，为他们提供更好的服务；另外，手势的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此，手势识别的研究是一个非常有意义的课题。1.3国内外研究现状1.3.1国外手势识别领域研究现状在新的人机交互领域，国际上已经出现付诸应用的人机交互系统3：2003年12月，美国密歇根州的Cybernet系

16、统公司开发出一套名为手势风暴的系统，是公司针对天气预报节目开发的，主持人可以通过简单的手势来控制预报的进程；美国加州圣何塞的Canesta公司在2004年末推出一种新的设备，它可以使个人数字助理(PDA)具备手势识别功能。该设备会通过PDA内部透镜在桌面等平面上投射出键盘的影像。与此同时，它还会向该“键盘”的上方区域射出一束红外光。通过检测红外光脉冲从离开发射器、经用户手指反弹后最终回到PDA内传感器的时间，该设备可以精确感知用户手指在任一时刻的位置。光脉冲的来回程时间对应于特定的距离，根据这些不同的距离可以得出手指在键盘上位置的三维图像，这样PDA就可以准确地采集用户在虚拟键盘上的操作信息；

17、美国佐治亚理工学院有一项用手势识别减少汽车事故的研究课题，该校的研究小组开发了名为“手势面板”的设备来取代汽车上通常使用的仪表板控制设备，司机只需要在指定区域做出某个手势，即可调整车内的温度或音响的音量，而不需要转移对路面的注意力。在基于视觉手势识别方面，具有代表性的研究成果包括：1991年富士通实验室完成了对46个手语符号的识别工作4；J.Davis和M.Shah5将戴上指尖具有高亮标记的视觉手套的手势作为系统的输入，可识别7种手势；Starner等对美国手语中带有词性的40个词汇随机组成的短句子识别，准确率达到99.2%6；K.Grobel和M.Assam从视频录像中提取特征，采用HMM技

18、术识别262个孤立词，正确率为91.3%7；此外，Vogler与Metaxas将两种方法结合用于美国手语识别，交互采用一个位置跟踪器及三个互相垂直的摄像机作为手语输入设备,完成了53个孤立词的识别，识别率为89.9%8；在利用数据手套等典型传感设备的方法中，CMU的Christopher Lee和Xu在1995年完成了一个操纵机器人的手势控制系统9；M.W.Kadous用Power Gloves作为手语输入设备，识别由95个孤立词构成的词汇集，正确率为80%10。1.3.2 国内手势识别领域研究现状在我国，哈尔滨工业大学的高文、吴江琴等人给出了ANN与HMM的混合方法作为手势的训练识别方法，将

19、ANNHMM混合方法应用于有18个传感器的CyberGlove型号数据手套的中国手势识别系统中，孤立词识别率为90%，简单语句级识别率为92%11。接下来高文等又选取CyberGlove型号数据手套做输入设备，采用DGMM(Dynamic Gaussian Mixture Model)作为系统的识别技术，可识别中国手势字典中的274个词条，识别率为98.2%12。另外，清华大学祝远新、徐光祐等给出了一种基于视觉的动态孤立手势识别技术13，借助于图像运动的变阶参数模型和鲁棒回归分析，提出一种基于运动分割的图像运动估计方法，基于图像运动参数，构造了两种表现变化模型分别作为手势的表现特征，利用最大最

20、小优化算法来创建手势参考模板，并利用基于模板的分类技术进行识别，对12种手势的识别率超过90%；在进一步研究中，他们又给出了有关连续动态手势的识别，融合手势运动信息和皮肤颜色信息，进行复杂背景下的手势分割，通过结合手势的时序信息、运动表现及形状表现，提出动态手势的时空表现模型，并提出基于颜色、运动以及形状等多模式信息的分层融合策略抽取时空表观模型的参数。最后，提出动态时空规整算法用于手势识别，对12种手势，平均识别率高达97%14。1.4 本论文所做的工作以及论文安排本文设计了一个基于视觉的人机交互系统，该系统能够实时地对从摄像头中输入的3种静态手势进行识别，并通过识别结果控制鼠标的操作，主要

21、有鼠标移动、鼠标左键单击和鼠标左键双击。文章中的静态手势识别采用了基于几何特征的识别方法，注重实时性和准确性，具体设计将在后面介绍，本文的主要安排如下：第一章：绪论，阐述了论文的研究目的、背景以及相关领域国内外研究的现状。第二章：基于视觉的手势识别技术基础，从手势建模、手势分析、手势识别三个方面介绍了基于视觉的手势识别技术。第三章：方案设计，详细介绍了本文从手势图像输入到人机交互实施的详细流程。第四章：方案实现和结果分析，介绍实际的程序执行效果，并试图从理论上分析和说明。最后，简要总结了本文所做的工作，分析所用方法的优势和缺陷，并简单介绍了改进的方法。第二章基于视觉的手势识别技术基础一个基于

22、视觉的手势识别系统的总体构成如图 2-1 所示15。首先，通过一个或多个摄像机获取视频数据流。接着，系统根据手势输入的交互模型检测数据流里是否有手势出现。如果有，则把该手势从视频信号中切分出来。然后，根据手势模型进行手势分析，分析过程包括特征检测和模型参数估计。识别阶段，根据模型参数对手势进行分类并根据需要生成手势描述。最后，系统根据生成的描述去驱动具体应用。本章首先简要介绍手势建模和手势分析，最后重点介绍手势识别一些理论和方法。图2.1 连续动态手势识别系统组图2.1 手势建模手势模型对于手势识别系统至关重要，特别是对确定识别范围起关键性作用，模型的选取根本上取决于具体应用。对于某个给定

23、的应用，一个非常简单并且粗糙的模型(文献16使用图像梯度方向直方图去跟踪人手以及识别静态手势)可能就是充分的。然而，如果要实现自然的人机交互，那么必须建立一个精细有效的手势模型(文献17使用了3D人手模型)，使得识别系统能够对用户所做的绝大多数(如果不是所有的)手势作出正确的反应(识别或拒识)。从目前的文献来看,几乎所有的手势建模方法都可以归结为两大类：基于表观的手势建模和基于3D模型的手势建模。基于表观的手势模型是建立在手(臂)图像的表观之上，它通过手势在图像(序列)里的表观特征去给手势建模。基于3D模型的手势建模方法考虑了手势产生的中间媒体(手和臂)，一般遵循两步建模过程：首先给手和臂的运

24、动以及姿态建模，然后从运动和姿态模型参数估计手势模型参数。图2-2对这两类手势模型进行了进一步的分类。图2-3给出表示同一种手姿态的几种模型，可以在这些人手模型的基础上进一步建立相应的手势模型。图2.2 手势模型分类2.1.1 基于3D的手势模型基于3D手(臂)模型的手势模型又可以分为体模型、网格模型、几何模型以及骨架模型。人体3D体模型主要用于跟踪和识别身体姿态，跟踪和识别的基本方法是基于合成的分析方法，简短地说就是首先合成人体的3D模型，然后改变模型的参数直到模型和真实人体映射出同样的视觉图像，从而分析身体姿态。然而，即使这样的模型相当成熟，它们还是太复杂以致于不能实时地渲染。更适合计算

25、机实时处理的方法是使用简单的3D几何结构去给人体建模。象广义锥和超二次曲面这样一类包含圆柱体、球体、椭圆体以及超矩形的结构常常用来近似身体某一部分，例如指节、前臂、或上臂18。这些几何结构的参数相对简单一些，例如只用3个参数(高度、半径以及颜色)就可以完全地描述一个圆柱体。然后，把简单的身体部分模型连结起来就可以得到像手、臂或腿等更复杂的身体部分3D模型。使用手(臂) 3D模型时存在两个主要问题：其一，参数空间的维数高；其二，通过视觉技术获取这些模型的参数困难重重并且非常复杂。2.1.2基于表观的手势模型第一类基于表观的手势模型使用2D灰度图像本身建立手势模型。例如，文献19把人手的完整图像序

26、列作为手势模板。在手指跟踪应用里，仅仅手指的图像也可以用作模板。文献20提出用运动历史图像作为手势模型。运动历史图像是指在某个时间区间上累加图像序列里各单个像素点的运动位置而形成的2D图像。第二类基于表观的手势模型建立在手(臂) 的可变形2D模板的基础上。可变形2D模板是物体轮廓上某些点的集合，一般把它用作插值节点去近似物体轮廓。模板由平均点集合、点可变性参数，以及所谓的外部变形构成。平均点集合描述了某一组形状的“平均”形状，点可变性参数描述了允许的形变。通常称这两组参数为内部参数。外部变形或者外部参数描述了一个可变形模板的全局运动，例如旋转、平移等。基于可变形模板的人手模型通常被用于人手跟

27、踪21。第三类基于表观的手势模型建立在图像属性的基础上。我们把从图像属性抽取的参数统称为图像属性参数，它们包括：轮廓、边界、图像矩、图像特征向量以及区域直方图特征等等。例如，文献21使用了基于边界的轮廓特征。由于图像矩计算简单，因此常被用作图像属性参数。其它常被使用的属性参数还包括Zernike矩、方向直方图、颜色直方图等等。第四类基于表观的手势模型通过计算图像运动参数，抽取手势模型参数。这类表观模型主要用在动态手势识别里。例如，文献22通过运动界点以及方差约束计算光流，然后通过向量聚类以及运动平滑性约束抽取手势的运动轨迹，并根据轨迹坐标建立手势模型。文献23通过区域相关性计算光流，然后进

28、行光流聚，把图像中的运动区域分割成“运动块”，这些运动块分别对应于手、臂或身体其它部分等。 a)有纹理的3D模型 b）3D网格模型 c）3D骨架模型 d）二值影像 e）轮廓图2.3 表示同一手势的不同手模型2.2 手势分割手势分割属于图像分割的范畴，而图像分割24是依据图像的灰度、颜色或几何性质将图像中具有特殊含义的不同区域分开来，这些区域是互不相交的，每一个区域都满足特定区域的一致性。比如对同一物体的图像，一般需要将图像中属于该物体的像素（或物体特征像素点）从背景中分割出来，将属于不同物体的像素点分离开。分割出来的区域应该同时满足25：(1) 分割出来的图像区域的均匀性和连通性。其中，均

29、匀性指的是该区域中的所有象素点都满足基于灰度、纹理、彩色等特征的某种相似性准则，连通性是指该区域内存在连接任意两点的路径。(2) 相邻分割区域之间针对选定的某种差异显著性。(3) 分割区域边界应该规整，同时保证边缘的空间定位精度。手势分割又可以分为静态手势分割和动态手势分割，静态手势分割主要有：(1)基于阈值的方法，当手势和背景对比相差较大时，手势图像(含背景和手势)的灰度直方图一般为双峰的结构，通过设定阈值(最好选波峰间的波谷为阈值)，可以很好的将手势分离出来，该方法的关键是阈值的选取。(2)基于区域的方法，它主要利用了空间的局部特征，一般手势部分的特征比较相似，和背景有很大不同，可以将相

30、似性质像素分离出来形成一个区域，该区域就是分割的目标，如肤色检测就是属于这种方法。(3)基于边缘检测的方法，一般目标和背景的交界处(边缘)会存在一个突变，边缘检测就是利用这种特性，通过分析图像的变化情况找出手势边缘，整个边缘形成的闭合区域就是分割的手势了。动态手势分割主要有：(1)差分图象法，利用当前图像(含有手势)差分背景图像(不含手势)，可以得到手势，这也被称作背景减除。(2)时间差分，在连续的两帧或三帧间采用基于像素的时间差分并且阈值化来提取图像总的运动区域，是对差分图像的变相利用。(3)光流法，一般运动物体随时间变化在图像中表现为速度场的特性，根据一定的约束条件可以估算出运动所对应的光流。该方法的优点是在摄像机运动存在的前提下也能检测出独立的运动目标。然而，大多数的光流计算方法需要多次的迭代运算，所以时间消耗比较大，且抗噪性能差。2.3 手势分析手势分析阶段的任务就是估计选定的手势模型的参数。分析阶段一般由特征检测和特征参数估计两个串行任务组成。在特征检测的过程中，必须首先定位手势，根据所用线索的不同，可以将定位技术分为基于颜色定位、基于运动定位、以及多模式定位等三种。

注意事项

本文（基于视频的人机交互技术研究论文.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。