基于视觉的人体运动分析
基于视觉的人体运动分析
摘 要:基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题一般遵从如下基本过程:特征提取与运动表征;行为识别;高层行为与场景理解。着重从这三个方面逐一回顾了近年来人行为理解研究的发展现状和常用方法,并对当前该研究方向上亟待解决的问题和未来趋势作了较为详细的分析。
关键词:特征选择;运动表征;行为识别;高层行为与场景理解
Abstract:Human movement analysis from video sequences is an active research area in computer vision and human motion understanding is a future direction of prospective study as it has many potential application domains such as smart surveillance, human computer interface, virtual reality contendbased video indexing, etc. Human action understanding is generally dividedintothreefundamental subprocesses:feature extraction and motion representation,activity recognition and higher level activity and scene understanding.This paper analyzed the state of the art in human action understanding in detail from three fundamental processes. At the end,provided and analyzed some detailed discussions on vital problems and future directions in human action understanding.
Key words:feature extraction;motion representation;activity recognition;high level activity and scene understanding
0 引言
近年来,人运动视觉分析由于在智能监控[1]、高级人机交互[2]、虚拟现实[3]和基于内容的视频检索与解说[4,5]等方面有着广泛的应用前景和潜在的经济价值,激发了广大科研工作者及相关商家的浓厚兴趣,并成为了计算机领域中备受关注的前沿方向之一。目前,在世界范围内已经开展了大量的视觉分析研究项目。例如1997年美国国防高级研究项目署(Defense Advanced Research Projects Agency,DARPA)设立了视觉监控重大项目VSAM(visual surveillance and monitoring)[6],主要研究用于战场及普通民用场景监控的自动视频理解技术;实时视觉监控系统W4[7]不仅能够定位和分割出人的身体部分以及实现多人跟踪,而且能检测人是否携带物体等简单行为;1999年欧盟Framework5程序委员会设立重大项目ADVISOR系统[8],旨在开发一个公共交通(如地铁、机场)的安全管理系统,它覆盖了人群和个人的行为模式分析、人机交互等研究;2000年,DARPA又资助了HID(human identification at a distance)计划[9],其任务是开发多模式监控技术以实现远距离情况下人的检测、分类和识别,从而增强国防、民用等场所抵御恐怖袭击的能力;英国雷丁大学(University of Reading)[10]先后开展了REASON(robust methods for monitoring and understanding people in public spaces)、ETISE(evaluation of video scene understanding)、ISCAPS(integrated surveillance of crowded areas for public security)等项目以研究基于视觉的单人行为以及人与人之间的交互行为识别和场景理解等;此外还有能够对人进行跟踪与行为理解的实时系统Pfinder(person finder)[11],由欧盟和奥地利科学基金会共同资助的大型视频监控技术研究项目AVITRACK(aircraft surroundings, categorized vehicles & individuals tracking for apron’s activity model interpretation & check)[12]等。国内在该领域的研究起步相对要晚,但也有许多大学和研究机构如中国科学院自动化所模式识别国家重点实验室[13]、亚洲微软研究院[14]、北京大学视觉与听觉信息处理国家重点实验室[15]以及清华大学等对人视觉分析关键技术进行了深入的研究。在学术方面,一些国际权威期刊如PAMI、IP、IJCV、CVIU、IVC和重要的学术会议如CVPR、ICCV和ICPR等将智能化视频监控技术研究,尤其是人运动视觉分析作为主题内容之一。这些期刊为该领域的研究人员提供了更多的交流机会[1]。
人运动视觉分析是利用计算机技术从包含人的图像序列中检测、分类、跟踪人,并对其行为进行理解与描述。其中运动检测[16~18]、目标分类[19]、跟踪[20~23]属于视觉分析中的底层和中层处理部分(有兴趣的读者可参考文献[24~28]);而行为理解和描述是经过对运动对象的连续跟踪观察,分析识别目标当前处于哪种行为模式,并利用语言进行描述,以及判断该行为是否属于异常行为,其属于高层处理部分。当前,人行为理解与描述受到了广泛关注,发表在上述权威期刊和重要学术会议上的关于行为理解研究的论文正逐年增加。由图1可见,关于人行为理解研究的会议文章从2002年起急剧增加,并且到2005和2006年每年发表的会议论文均保持在70篇以上;期刊文章从2003年也开始大幅增加,尤其是2007年前5个月的文章数量就超过2005年全年的数量并接近2006年全年发表的数量。行为理解已经成为了未来研究的前瞻性方向之一。因为人运动视觉分析研究的最终目标就是要让计算机能像人那样通过视觉观察和理解世界[29],也就是通过视觉观察来分析和理解人类活动及场景信息等。行为理解是跟踪器中像素测度与行为描述之间的桥梁,是使计算机向更加人性化(从“looking at people”向“understanding people”)转变的关键所在。
通过对大量行为理解研究文献的整理发现:人行为理解研究一般遵从特征提取与运动表征、行为识别、高层行为与场景理解等几个基本过程[30~33](图2)。特征提取与运动表征是在对目标检测、分类和跟踪等底层和中层处理的基础上,从目标的运动信息中提取目标图像特征并用来表征目标运动状态;行为识别则是将输入序列中提取的运动特征与参考序列进行匹配,判断当前的动作处于哪种行为模型;高层行为与场景理解是结合行为发生的场景信息和相关领域知识,识别复杂行为,实现对事件和场景的理解。
随着人行为理解研究的不断发展和深入,对该领域的工作及进展作详细的回顾和分析显得很有必要。尽管Aggarwal[24]、Gavrila[25]、Moeslund[26]和Hu[27]等人对行为理解的方法有所阐述,但他们都是简单性地总结分析其方法,并没有对当前行为理解的研究现状进行系统分析。为了使广大相关科研人员能更好地了解和掌握行为理解技术发展的新动向,促进行为理解技术的发展,本文从行为理解的一般性处理框架出发,对目前人行为理解的算法研究现状、存在问题及发展趋势等进行详细介绍。
1 特征选择与运动表征
在人运动视觉分析中,由于视角的影响,同一种行为可能有不同的投影轨迹,而不同的行为可能有相同的投影轨迹。此外,光照变化、遮挡等现实环境因素也都给行为理解带来了很大困难。所以从原始视频数据中提取何种底层特征(如形状信息包括侧影、轮廓,运动信息包括位置、速度、方向等)描述人运动,以及如何选择充分有效的描述方法表征人运动状态并且能够在时间分辨率和维数上减少计算量成为行为理解的关键问题之一。
1.1 特征选择
表1为2000—2007年400多篇关于行为理解研究的权威期刊与重要国际会议文章中使用特征的统计分析表。由表1可见,目前行为理解研究所采用的特征主要有如下四种:外观形状特征、运动特征、时空特征、形状特征与运动特征两者的混合特征。其中,形状特征和运动特征是两种最常用、也是最主要的特征,其比例均保持在30%以上。另外,时空特征在行为理解研究中开始得到越来越广泛的使用。
基于外观形状特征[34~42]方法是先利用人体几何结构、轮廓或姿态以及区域颜色等信息来估计运动目标每时刻的静止姿态,然后用这些静止姿态序列来描述人体运动。外观形状特征容易获得且比较稳定,对纹理变化不敏感。基于运动特征方法[43~47]则没有利用有关人体结构的任何形状信息,而是直接从图像序列中提取出目标运动特性(时分)信息(如光流信息、运动方向、轨迹、位置、速度等)来表征运动状态。心理学研究表明,运动特征具有静态形状特征无法比拟的优势,即使是在远距离或恶劣的能见度情况下和最小运动系统——MLD(moving light display)[48],人能够根据运动模式轻松地区别和识别目标的运动类型,而形状特征在此种情况下往往变得模糊不清。但目前的计算机视觉方法很难准确地提取运动特征,所以,为了充分利用形状特征和运动特征各自的优势,研究人员采用两者的混合特征[49~51]识别人的行为。此外,时空特征[52~57]是近年来行为理解研究中使用比较多的特征。时空特征通过采用二维形状在一段时间内形成的空时立体或差分图像来描述行为,集合了形状和运动特征两者的优点。由于时空特征考虑了运动信息,也有学者将其归类于运动特征。
1.2 运动表征
人运动表征是指从人的运动序列中提取合适的特征数据来描述人的运动状态,这是人行为理解中至关重要的一步。依据所用的特征,运动表征方法可分成基于外观形状特征的和基于运动特征的。
1.2.1 基于外观形状特征的运动表征方法
依据是否利用人体形状模型的先验知识,基于外观形状的运动表征方法又可分成基于模型和基于外观特征(或基于视觉特征方法)两类。
基于模型方法的核心思想是首先建立描述空间中人体形状模型;然后利用目标的形态特征和关节位置等信息,将模型与输入图像序列在首帧匹配,在后续帧的跟踪过程中,定义损失函数描述输入图像数据与模型之间的近似关系,并采用人体运动参数限制条件和最优策略如最小平方[58]或随机采样策略如粒子滤波[59,60]等方法最小化损失函数来求得当前的运动姿态。常用的模型结构可以分为矩形框、棍棒形状[61]、二维轮廓[38]和3D立体模型[58]。基于模型方法集合了先验模型知识和当前输入,能够适合复杂行为的行为理解;但通常要求首先选择模型,初始化较难、计算量大,而且由于人运动的高自由度,容易产生局部最小值,很难找到全局最优且鲁棒的模型参数,此外由于在后续的跟踪中存在累计误差,不能分析、跟踪长序列运动。
基于外观方法并不试图恢复人体运动的结构模型,而是直接从图像中提取物体的二维空间信息,如高度、宽度、侧影轮廓和颜色等,并用这些特征直接或通过与已经训练好的模型进行匹配来获得对当前运动的描述。在这类方法中,形状分析理论常用来描述运动目标的形状变化特征(有关形状分析请参考文献[62])。常用的形状分析方法有质心—边界距离[34,36]、傅里叶描述符[41]、形状上下文[42]和统计形状分析[32,35,63,64]等。其中,质心—边界距离方法使用一维函数编码从形状的质心到形状边界点的距离,这种描述符简单但不能精确地对非凸起形状进行编码,如质心与一个边界点之间的距离连线可能与另一个边界点相交,造成细节的丢失。Poppe等人[41]提出用傅里叶描述算子恢复人姿态;其思想是用固定的边界采样点对人体二维侧影轮廓进行采样,并对采样点进行傅里叶变换,利用变换后傅里叶系数的低频部分描述形状的大体特征,用高频部分来反映形状的微观特征即详细特征。由于傅里叶描述算子只能描述单个闭环曲线,这种方法一般用于描述外部边界点;在噪声环境下,傅里叶转换性能不是很好。Mori和Malik[42]则提出用形状上下文[65]描述算子表征人体侧影形状来恢复人体运动的三维姿态。一个点的形状上下文算子就是试图捕捉点集中其他点相对于该点的分布,它是一种基于内部或外部边界采样点的局部描述算子。傅里叶描述算子和形状上下文算子具有平移、旋转和尺度不变性。与傅里叶算子和形状上下文描述算子不同的是,Hu[66]提出一种基于区域的不变矩理论,并构造出共七个不变矩,它们具有平移、旋转和缩放不变性,目前已经广泛应用于图像的模式识别中。Poppe和Poel[67]对傅里叶描述算子、形状上下文和不变矩三种算子在侧影轮廓描述上的性能进行了比较,并且实验结果表明傅里叶描述算子和形状上下文直方图在形变侧影描述上比Hu更具有优势。20 世纪70年代后期,Dryden等人[63]提出的统计形状理论发展成一种用形状概率分布分析物体形状的实用统计方法,并且在图像分析、目标识别等领域得到广泛应用。文献[64]进一步讨论了投影形状和不变量,以及形状模型、特征和它们各自在高层视觉中的作用。Jin等人[32]用统计形方法描述每帧中的目标轮廓,并用完全Procrustes均值形状作为极点,构造一个与数据集近似的线性空间——切空间;然后用这个线性化的轮廓作为训练数据去学习动态系统、估计系统参数,从而识别人行为。
此外,目标形状变化的动态特性也为目标识别和动作分类提供了重要信息。N.Vaswani等人[68]提出用形状变化的动态特性来建模和分类动作;Liu等人[69]提出在傅里叶描述算子的基础上建立自回归模型学习形状变化的动态信息;基于统计形状理论,Veeraraghavan等人[35]提出用自回归模型(AR)和平稳自回归模型(ARMA)学习形状变化的动态特性,并用模型之间的距离量测作为两个形状序列之间的相似性测量,取得了较好的分类效果。
基于外观特征方法不要求特定的模型,比较简单,能够适用于大量的环境条件下。但外观特征方法由于没有模型先验信息限制,很难建立连续帧之间的特征对应关系,并且很难区别信号和噪声,一般对噪声敏感。此外,外观特征受视角影响大,所以许多学者[58,70~72]研究基于多视角环境中人的行为分析和识别。
1.2.2 基于运动特征的运动表征方法
基于运动特征的表征方法可以细分为:
a)基于预先确定区域(如腿、头)跟踪的运动轨迹分析方法。其关键是运动匹配[43,45,73],思想是在一帧图像中提取出兴趣点或区域、典型特征,并且在随后图像帧中进行跟踪,多帧之间的这些特定点或区域位置匹配就会产生一条运动轨迹;然后对轨迹进行参数化处理,如将轨迹转换成水平、垂直方向的速度以及时空曲率等来描述运动特性。
b)基于非预先确定的目标区域运动分析方法。其最典型的代表是光流法[44,46,47,74]。与运动轨迹不同的是,光流法是计算空间运动物体表面上像素点运动产生的瞬时速度场。它通过计算图像序列中连续两帧亮度信息来得到,指的是图像亮度模式的表观(或视在)运动(apparent motion)。例如Zhu等人[47]提出用光流直方图来描述动作的运动信息,然后用支持向量机作分类器识别运动员的击球动作。光流法在无须背景区域的任何先验知识条件下就能够实现对运动目标的检测和跟踪。光流计算的基本等式是假设相邻两幅图像中对应两点的灰度不变得到的。在这个假设条件下首先要求两幅图像相邻时刻之间的间隔是很小的(几十毫秒之内),并且要求场景光照均匀。此外光流法的计算量较大。
时空特征不仅包含人动作姿态的空间信息(人体躯干和肢体的位置、方向等),而且还包含运动的动态信息(人体的全局运动和肢体的相对运动),从而避免了光流场计算可能遇到的问题(包括孔径、全局平滑性约束、奇异性等)和外观形状特征跟踪问题[75,76](自遮挡、重新初始化、外观改变、运动信息缺乏等)等。所以近年来时空特征在行为识别中得到了大量的使用[52~57]。Bobick和Davis[52]集合时空运动特征,提出了用运动历史图(MHIs)和运动能量图(MEIs)来描述运动。其中运动历史图反映运动是怎么产生的,而运动能量图反映运动发生的位置。文献[53,54]则提出用迭代滤波(recursive filtering)和帧分组(frame grouping)来描述运动信息。用迭代滤波方法对视频序列中的每帧图像进行滤波处理得到一幅滤波图像,其反映当前帧的场景空间分布信息、相邻帧之间的时分关系以及短时间内的运动速度;帧分组方法思想是单独分类视频切片中的每个滤波图像,然后用多数投票方法分类这些已标志的滤波图像的运动类型。
基于运动特征和外观形状特征表征的方法都有各自的缺点,基于运动特征能够描述人的近似运动方向和轨迹等,但很难准确、稳定地捕捉目标运动特性;另一方面,外观形状特征能够描述人的姿态信息,但由于没有运动信息,描述行为动作的能力有限。所以研究人员[56~58]通过采用融合两种特征的方法来对人行为进行建模和识别。
2 行为识别
行为识别问题可以简单地看做是时变特征数据的分类问题,即将测试序列与预先标定的代表典型行为的参考序列进行匹配,那么其关键问题是如何从学习样本中获取参考行为序列以及如何度量参考序列与测试序列之间的相似性。由于人动作执行的速度不一样,学习和匹配行为序列时还必须能够处理相似运动模式在空间和时间尺度上轻微的特征变化。目前,行为识别方法一般可以分成静态识别和动态识别。静态识别方法是把行为看做由一组按时间顺序串连起来的静态图像序列,其常用的方法有模板匹配方法;动态识别方法是定义每个静态姿势作为图模型上的一个节点或状态,这些节点或状态之间通过某种关系如概率联系起来。任何运动序列可以看做这些静态姿势的不同状态之间的一次遍历过程。常用的识别方法有隐马尔可夫模型(hidden Markov models,HMMs)、动态贝叶斯网络(dynamic Bayesian network,DBN)等。这些方法可以总归为基于状态转移的图模型方法。
2.1 基于模板匹配方法
基于模板匹配方法是用从输入图像序列提取的特征与在训练阶段预先保存好的模板进行相似度比较,选择与测试序列距离最小的已知模板的所属类别作为被测试序列的识别结果。Bobick和Davis[52]将图像序列目标运动信息转换成运动能量图像(MEI)和运动历史图像(MHI),采用马氏距离度量测试序列与模板之间的相似性;Masoud等人[53]则采用无限冲击响应滤波器来描述运动,并将其投影到特征空间,然后用Hausdorff距离度量测试序列与参考序列之间的相似性。此外,还有学者采用Procrustes距离[50]来度量测试序列与模板之间的相似性。这些最近邻方法尽管在一定程度上反映了运动的时分关系,计算量小,但并没有对运动的时分限制条件进行建模,鲁棒性较差。为此,Veeraraghavan等人[35]用动态时间规整(dynamic time warping,DTW)来匹配运动序列。DTW是一种时变数据序列匹配方法,常用于微生物学的DNA匹配、字符串和符号的比较以及语音分析[77]。DTW算法的思想是给定参考模板特征矢量序列与输入特征矢量序列,寻找一个最佳的时间规整函数,使得输入序列的时间轴映射到参考模板的时间轴上总的累计失真最小。对DTW而言,即使测试序列模式与参考序列模式的时间尺度不能完全一致,只要时间次序约束存在,它仍能较好地完成测试序列与参考序列之间的模式匹配。DTW具有概念简单、算法鲁棒的优点,能够对图像序列进行分类。文献[35]在形状空间中用动态时间规整方法计算两个形状序列之间的距离来识别动作和步态,取得了很好的分类结果。然而,DTW算法计算量较大,缺乏考虑相邻时序之间的动态特性,而在实际中,运动序列中相邻序列在时间和空间上有高度的相关性。
基于模板匹配方法计算复杂度低、实现简单,但缺乏考虑运动序列中相邻时序之间的动态特性,对于噪声和运动时间间隔变化敏感。
2.2 基于状态转移图模型方法
基于状态转移图模型方法[78,79]是将每个静态姿势或运动状态作为图中的一个节点或状态,对应于各个姿势或运动状态节点之间的依存关系通过某种概率联系起来,这样任何运动序列可以看做在图中不同节点或状态之间的一次遍历过程。常用于行为理解的图模型方法有隐马尔可夫及其改进模型[80~95]、动态贝叶斯网络[96~102]、人工神经网络[45,103]、有限状态机[104,105]和置信网络[106]等。本文对前三种常用方法进行总结分析。
2.2.1 隐马尔可夫及改进模型
与DTW相比,隐马尔可夫模型是一种更加成熟的匹配时变数据的技术。HMMs用马尔可夫过程建立相邻实例之间的相互关系,并假设观察序列由固定个数的隐状态构成的隐过程决定,是一种随机状态机。HMMs的使用涉及到训练和分类两个阶段。训练阶段包括指定一个隐马尔可夫模型的隐藏状态数,并且优化相应的状态转换和输出概率,以便于产生的输出符号与对特定运动类别之内所观察到的图像特征相匹配。受HMMs在语音数据分析[80]成功应用的影响,研究人员将HMMs用于视觉识别[73,81~83]。Bregler[81]基于人体动力学在不同抽象等级的统计分析,提出了用一个综合性的网络来识别人的运动:在底层处理阶段,以混合高斯模型来估计基于运动、彩色相似度和空间接近程度等小区域块,不同的身体部分区域在图像序列中被跟踪;在中层处理阶段,具有一致运动特性的区域被匹配为动力学系统中的简单运动(如行走被认为是两个简单运动的组成:一个是腿的支撑,一个是腿在空中的摆动);在高层处理阶段,HMMs被用来作为这些中级动力系统的混合模型以表达复杂的运动,识别过程通过最大化HMMs的后验概率来完成。实验表明,在学习能力和处理未分割的连续数据流方面,HMMs比DTW有更好的优越性。
HMMs有很强的输出独立性假设限制,其信号处理过程是一个单路马尔可夫过程,不能处理多个且相互依存的序列,导致其不能考虑上下文的特征,限制了特征的选择;而且其拓扑结构是事先给定的,它的模型参数需要用EM算法来估计(BaumWelch 算法);对观测矩阵的初始值比较敏感,如果初始值选择不当,会造成概率函数的局部最大值。另外,分类模型不灵活,不能处理运动中分层与共享结构。为了识别复杂动作与人们之间的交互行为,Brand等人[84]提出一种耦合隐马尔可夫模型(coupled hidden Markov models, CHMM)[84~86]来建模行为中两个相互关联的随机过程,并用CHMM对手势进行识别。结果表明,与传统HMMs相比,CHMM具有更好的分类效果,计算速度快,而且对初始条件不敏感。Fine等人[87]为处理自然序列中复杂的多尺度结构,提出了层级隐马尔可夫模型(hierarchical hidden Markov model,HHMM)。HHMM具有多层隐马尔可夫模型的结构,所以能够更为清楚地表达出人运动中不同层次的行为细节。Nguyen等人[88,89]采用HHMM识别人的行为,并取得了很好的分类效果。此外还有抽象隐马尔可夫模型(abstract hidden Markov model, AHMM)[90]、可变长马尔可夫模型(variable length Markov model,VLMM)[91]、熵隐马尔可夫模型[92,93]和分层隐马尔可夫模型(layered hidden Markov model,LHMM)[94,95]等也被用于复杂行为识别。
2.2.2 动态贝叶斯网络
由于HMMs不能有效处理三个或三个以上独立的过程[86],学者提出了HMMs的推广方法——动态贝叶斯网络(dynamic Bayesian networks,DBNs)[96]。动态贝叶斯网络是一种对随机过程描述的有向图解,通过网络拓扑结构反映变量间的概率依存关系及其随时间变化的情况,不受马尔可夫链的链状结构约束,因此不但能够在每个时刻上对多个随机变量所对应的不同特征之间的依存关系进行概率建模而不仅仅是一个隐藏状态变量,而且考虑了各个时刻间的转移概率,能够很好地反映特征之间的时序关系,适用于不确定性和概率性事物。所以动态贝叶斯网络逐渐成为人行为理解研究中一个有力的数学工具[97~102]。Park和Aggarwal[97]提出用层级贝叶斯网络方法识别两个人之间的动作。该方法在贝叶斯网络的低层估计被跟踪身体部分的姿态;然后在贝叶斯网络高层估计整个身体的姿态;最后用动态贝叶斯网络处理综合多个身体部分组成的状态。Muncaster等人[102]提出一个一般的d-层动态贝叶斯网络识别复杂的事件,在每一层用确定性的退火聚类算法自动检测观测层的状态。文献[98,99]则用贝叶斯网络识别停车场和地铁监控环境下的复杂行为。
贝叶斯网络的主要优点是利用先验知识建立视觉特征之间的因果关系来处理视频处理中固有的不确定性问题。动态贝叶斯网络还可以任意改变拓扑结果或增删变量以反映变量间各种不同的关联关系,而不影响训练算法本身,因此具有良好的可解释性,其拓扑结构具有精确及易于理解的概率语义。相比马尔可夫链,贝叶斯网络训练比较复杂。
2.2.3 神经网络
人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入作状态响应而进行信息处理,在分析时变数据时具有很大的优势。Buccolieri等人[103]用神经网络对轮廓进行分析来识别人的姿态。由于神经网络通常需要用大量的数据来训练网络,研究学者在神经网络的基础上提出了时延神经网络(timedelay neural network,TDNN)。时延神经网络是在多层前馈感知器神经网络模型中引入时延单元使得神经网络增加记忆功能;同时,时变序列的前述值被用来预测下一个值。由于大量数据集成为可能,时延神经网络的重点就可以放在时分信息的表达,这样由此导出的神经网络模型适合应用于处理序列数据。Yang和Ahuja[45]应用时延神经网络于手势识别,并取得了较高的识别率。
除了上述两类方法,支持向量机(support vector machine,SVM)由于能够较好地解决常见的非线性分类问题中的小样本、非线性、高维数和局部极小点等实际问题,同时可以避免神经网络结构选择和局部极小点问题,成为20世纪90年代末发展最快的研究方向之一,并且在行为理解中也得到了充分的应用[47,54,107~109]。Cao等人[54]用SVM建立滤波图像分类器来对运动分类。文献[109]提出一种基于光流直方图运动描述算子,并用SVM训练分类器识别运动员的动作。
3 高层行为与场景理解
尽管用上述行为识别方法能够识别较复杂的动作,但要理解“场景中在发生什么事情”等复杂行为与事件,不仅需要解释和理解视觉输入,还需要场景中相关信息与背景知识,尤其是对涉及人活动的场景理解更需要抽象且有代表意义的策略。高层行为事件与场景理解是在对场景图像信息的各种处理和分析的基础上,解释和描述场景图像的内容,包括场景中人与人、人与物体的行为以及它们之间的时空关系,这也称为高层视觉。目前研究较多的事件检测是对整个视频序列内容以及真实场景的总结分析过程。其核心思想是利用物体或环境知识去理解场景中发生的动作或将要发生的动作,广泛应用于停车场、超市、地铁以及机场等公共场所的智能监控中检测是否有异常行为发生并告警。VSAM、Pfinder和AVITRACK等系统都具有场景理解与事件检测的功能。目前高层行为与场景理解的方法包括基于规则推理网络[33,105,106,110~113]、随机文法(包括随机上下文无关文法:stochastic context free grammar,SCFG)[114~116]、概率状态依存语法(probabilistic state dependent grammars,PSDG)[117]、因果分析[118]等。
Badler[105]提出一种基于运动动词的分层框架来分析运动。一个运动动词就是一种行为,而这些动词是预先定义在静态图像的规则基础上,用自动状态机建立起行为之间的联系。这种系统理论上可以解释人行为中的复杂事件,但系统仅仅在人工环境中进行测试。Kojima和Tamura[111]则提出一种事件框架来识别单个人的动作。首先提取出人体头、身体和手的运动,定义事件帧(case frame)来描述动作规则,从而建立起人运动姿态、位置信息与运动概念之间的对应关系。Hongeng等人[112]则提出事件是由动作线程构成,而且每个线程有单个角色执行,每个单一动作线程通过贝叶斯方法,利用角色的轨迹和运动块特性来识别,这样事件可以通过许多在时分限制上相关的动作线程来表达。Robertson等人[113]组合运动轨迹信息与局部运动描述算子,借助图像特征数据概率搜索方法来描述和识别动作,并用编码场景规则的HMM平滑动作序列,这样通过计算当前动作序列下的HMM概率来识别高层行为。基于规则的方法在动作分析中显示了其优点,但由于某些行为的模糊性,基于规则推理方法很难给每个行为定义准确的规则,而且不同的应用领域定义的规则也不相同。
随机文法由于能够从包括HMM不能同时处理的多个过程中提取出有意思的行为,被用来有效地描述真实场景。Ivanov和Bobick[115]提出两步策略来理解自动监控系统中的高层行为和事件。在低层处理部分用HMM检测和识别简单的行为模式,并将输出向量映射为离散语法字母表;在高层部分则采用随机上下文无关文法模型分析、理解低层输出,最终实现行为理解。但这种方法受其语法的上下文无关约束的限制。复杂的行为,尤其是有目的的行为,其状态通常是前后相关的,也就是下面的行为依赖于当前的状态,这样使得行为并不是上下文无关的。此外,两步识别策略不支持从低层数据到高层理解的在线无缝概率推理。基于这样的缺点,Nguyen等人[119]提出用抽象隐马尔可夫记忆模型(abtract hidden Markov memory model,AHMEM)识别复杂室内环境中人的高层行为。Park和Aggarwal[118]提出一种事件语义学来表达和识别人之间的交互行为,并用语言学中的动词元结构按每三个代理运动目标一组的结构形式来描述运动。时空限制用于决策树来识别特殊的交互行为。在这个框架下,人的动作以“主语+动词+宾语”结构来自动表达,同时人的交互行为根据人动作之间的因果语义关系来描述。
当前对高层行为与场景理解的研究还很不完善,高层行为与场景理解研究受一些视觉基础问题的束缚,如像素级的分割、遮挡以及处理可变性的能力。目前的研究都是针对特定领域应用的研究,有些只是提取场景信息高层的语义,不可能在任意图像中确定不同的景物。
4 行为理解存在的问题与发展趋势
尽管近年来利用机器学习工具构建人行为的统计模型、理解人行为的研究有了一定的进展,但由于动态场景中运动的快速分割、宽松的着装、遮挡、阴影和光照变化、运动的非刚性和高自由度[24,120]、行为发生的场景和人运动的模糊性(关于行为、事件、状态有着不同的概念)等因素的影响,使得人视觉行为理解成为一个复杂且极具挑战性的任务。相对于检测、跟踪等技术的显著发展,其行为理解的研究进展比较缓慢。目前行为理解的研究仍处于初级阶段,即原子动作[29]分析,也就是简单日常标准动作如行走、跳、站起、坐等[30~37]和以人行为为目标的简单事件检测等[97,102,121~123]。其亟待解决的问题和未来的发展趋势有以下几个方面:
a)运动特征选择与表达。如何选择特征来充分表达运动成为行为理解的关键问题之一。一般是尽可能选择较多的特征或者是在连续特征的典型匹配过程中引入人运动模型的简化约束条件来减少、消除歧义性。但如果选取的特征过多、特征向量维数过大,则会增加计算的复杂度;而选择特征过少,又可能不足以识别与理解人行为,而引入人运动模型的简化约束条件与一般的图像条件却又是不吻合的[28]。因此,能否借鉴人类的学习、识别与理解机理,定义一个动态特征模型,首先提取有关行为的主要特征,当这些特征不足以完成识别与理解时,系统逐步提取候选的细节特征;另外一种更好的办法是使用行为的二维表达捕捉行为的视觉不变特征[49,124],那样对行为理解不会引起歧义。但是如何选择视觉不变特征却又是一项很困难的任务。此外,提取特征的不稳定性也为行为理解带来很大的困难,但多模特征融合将为行为理解提供一种很好的解决办法。例如在某些环境中,可视信息受干扰,变得敏感不可靠时,声音特征将为基于视频的行为理解提供一个很好的补充[125,126];在遮挡的情况下,基于多摄像机信息融合方法由于能够很好地解决遮挡问题,在行为理解研究[70~72]也将会得到快速的发展。
对于运动特征表征来说,不同复杂程度的运动通常会采用不同的运动表达方法,即使是同一种动作在不同的场合,由于快慢速度不一致等都会产生不同的时空关系。如何表征这些细微的时空变化并没有一个很好的办法。一个可行的办法是采用多分辨率的方法[127]来表征和分析运动,但计算量较大。
b)行为识别。目前人行为理解虽然取得一定的进展,但行为理解研究还只局限于简单、固定视角且已切分好后的动作,对不同动作连续变化的长运动序列的研究比较少[54],而且鲁棒差,在噪声、亮度和光照变化强烈以及视角变化的复杂环境中正确识别率大大降低。目前的行为识别方法如状态转移的图模型方法和模板匹配方法通常在计算代价和运动识别的准确度之间进行折中,而且都是先训练后使用,只能识别训练中预先定义好的动作,没有自动学习新行为的能力,缺乏考虑场景等背景知识,很难根据目标行为和场景的先验知识进行自动机器学习。例如HMMs等方法被看成一个黑盒,它不解释某种行为是什么,只输出一种未知行为与认知的模式行为之间的概率。所以仍需要寻找和开发新技术,以利于在提高行为识别性能的同时,又能有效地降低计算的复杂度。
c)高层行为与场景理解。行为本身具有很强的模糊性,同一行为、事件、状态在不同的场景有着不同的概念,当同一场景中有多个目标出现时其行为模糊性更加明显。所以,如何借助于先进的视觉算法和人工智能等领域的成果,将现有的简单行为识别与理解推广到更为复杂场景下的事件与场景理解,是将计算机视觉低、中层次的处理推向高层抽象思维的关键问题。
d)行为理解与生物特征识别相结合。在智能安全监控、智能人机交互中,行为理解与生物特征相结合显得更加重要,不但要求系统能够识别被监控对象的当前行为状态,而且能够识别当前被监控的对象身份。生物特征技术识别如步态识别[50]、人脸识别等[128,129]给对象身份识别提供了一个很好的解决办法。所以与生物特征识别相结合的行为理解将会是未来的研究方向之一。
e)算法评价。一般而言,鲁棒性、准确度、速度是人行为识别的三个基本要求,要求能够快速准确地识别运动且连续地工作,对于如噪声、光照、天气等因素的影响不能太敏感。但目前的识别方法更多关注的是识别率,对鲁棒性和速度两个指标研究要求很少。另外,对行为识别方法没有统一的视频测试序列,大部分研究方法都是具体问题具体分析,是用各自选择的视频序列进行实验分析,无法对提出的算法进行统一评价。
5 结束语
人行为理解已经成为计算机视觉领域一个重要的研究方向之一,在智能监控、人机交互等方面的应用前景引起了广大科研人员的浓厚兴趣。本文从特征选择与运动表征、行为识别方法以及高层行为与场景理解三个方面总结了近年来人行为理解研究现状和进展。其中特征提取和运动表征可以归结为行为建模,即如何描述行为动作。目前的方法需要根据具体实际应用情况,在动作模型描述精确度和计算复杂度中折中,选择适当的方法来对行为建模。本文将行为识别算法细分成模板匹配方法、基于图模型的方法等,同时对各种常用的数据匹配方法进行逐一分析,并且讨论了目前的高层行为与场景理解的研究发展与现状。最后提出了目前行为理解存在的问题和未来的发展趋势。尽管当前行为理解研究取得了一定的进展,但依然处于萌芽阶段,需要提出新的方法来解决相关问题,提高行为理解的性能。
参考文献:
[[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237.
[2]JAIMES A,SEBE N.Multimodal human computer interaction:a survey[C]//Proc ofIEEE International Workshop on Human Computer Interaction in Conjunction with ICCV2005.Beijing:[s.n.],2005.
[3]NIJHOLT A.Meetings, gatherings, and events in smart environments[C]//Proc of ACM SIGGRAPH International Conference on Virtual Reality Continuum and Its Applications in Industry.2004:229-232.
[4]KITTLER J,BALLETTE M,CHRISTMAS W J,et al. Fusion of multiple cue detectors for automatic sports video annotation[C]//Proc of Workshop on Structural, Syntactic and Statistical Pattern Recognition.2002:597-606.
[5]TJONDRONEGORO D,CHEN Y P P,PHAM B.Content ased video indexing for sports applications using integrated multimodal approach[C]//Proc of the 13th Annual ACM International Conference on Multimedia.2005:1035-036.
[6]COLLINS R,LIPTON A,KANADE T, et-al.A system for video surveillance and monitoring: VSAM final report,CMU-RI-TR-00-12[R].[S.l.]:Carnegie Mellon University,2000.
[7]HARITAOGLU I,HARWOOD D,DAVIS L S.W4: realtime surveillance of people and their activities[J].IEEE Trans on PatternAnalysis and Machine Intelligence,2000,22(8):809-830.
[8]NAYLOR M,ATTWOOD C I.Annotated digital video for intelligent surveillance and optimized retrieval:final report[R].[S.l.]:ADVISOR Conortium,2003.
[9]HID[EB/OL].http://www-static.cc.gatech.edu/gvu/perception//projects/hid.
[10]REASON[EB/OL].http://www.cvg.cs.reading.ac.uk/.
[11]WREN C R,AZARBAYEJANI A,DARRELL T, et-al . Pfinder:real time tracking of the human body[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.
[12]BLAUENSTEINER P,KAMPEL M.Visual surveillance of an airport’s apron:an overview of the AVITRACK project[EB/OL].http://www.prip.tuwien.ac.at/~kampel/ papers/blauoeagm04.pdf.
[13][EB/OL].http://nlpr-web.ia.ac.cn/.
[14][EB/OL].http://research.microsoft.com/asia/group/vc/.
[15][EB/OL].http://www.cis.pku.edu.cn/introduction.htm.
[16]SHEIKH Y,SHAH M.Bayesian modeling of dynamic scenes for object detection[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(11):1778-792.
[17]ELGAMMAL A,HARWOOD D,DAVIS L.Non arametric model for background subtraction[C]//Proc of the 6th European Conference on Computer Vision. Dublin,Ireland:[s.n.], 2000:751-67.
[18]左军毅,潘泉,梁彦,等.基于模型切换的自适应背景建模方法[J].自动化学报,2007,33(5):467-473.
[19]JAVED O,SHAH M.Tracking and object classification for automated surveillance[C]//Proc of the 7th European Conference on Computer Vision.Copenhagen:[s.n.],2002.
[20]CHEN Yun-qiang,RUI Yong,HUANG T S.Multicue HMMUKF for realtime contour tracking[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(9):1525-529.
[21]YANG Tao,LI S Z,PAN Quan, et-al . Real time multiple objects tracking with occlusion handling in dynamic scenes[C]//Proc of IEEE International Conference on Computer Vision and Pattern Recognition.San Diego,CA:[s.n.],2005.
[22]WANG Yong zhong,LIANG Yan,ZHAO Chun hui, et-al. Adaptive multi cue kernel tracking[C]//Proc of IEEE International Conference on Multimedia & Expo.2007:1814-1817.
[23]李培华.一种改进的Mean Shift跟踪算法[J].自动化学报,2007,33(4):347-354.
[24]AGGARWAL J K,CAI Q.Human motion analysis: a review[C]//Proc of IEEE Nonrigid and Articulated Motion Workshop.Piscataway:IEEE Computer Society,1997:90-102.
[25]GAVRILA D M.The visual analysis of human movement: a survey[J].Computer Vision and Image Understanding,1999,73(1): 82-98.
[26]MOESLUND T B,GRANUM E.A survey of computer visionbased human motion capture[J].Computer Vision and Image Understanding,2001,81(3):231-268.
[27]HU Wei ming,TAN Tie niu,WANG Liang, et-al. A survey on visual surveillance of object motion and behaviors[J].IEEE Trans on Systems, Man, and CyberneticsPart C: Application and Reviews,2004,34(3):334-352.
[28]刘相滨,向坚持,王胜春.人行为识别与理解研究探讨[J].计算机与现代化,2004(12):1-5,27.
[29]BUXTONH,GONG Shao gang.Advanced visual surveillance using Bayesian networks[C]//Proc of the 5th IEEE International Confe rence on Computer Vision.Massachusetts:[s.n.],1995.
[30]BREMOND F,THONNAT M,ZUNIGA M.Video understanding framework for automatic behavior recognition[J].Behavior Research Methods Journal,2006,38(3):416-426.
[31]AMER A,DUBOIS E,MITICHE A.A realtime system for high level video representation:application to video surveillance[C]//Proc of SPIE International Symposium on Electronic Imaging, Conference on Visual Communication and Image Processing.Santa Clara:[s.n.],2003:530-541.
[32]JIN Ning,MOKHTARIAN F.Human motion recognition based on statistical shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2005.
[33]ELBASI E,ZUO Long,MEHROTRA K, et-al. Control charts approach for scenario recognition in video sequences[J].Turk J Elec Engin,2005,13:303-310.
[34]FUJIYOSHI H,LIPTON A J.Real time human motion analysis by image skeletonization[C]//Proc of the 4th IEEE Workshop on Applications of Computer Vision.1998:15-21.
[35]VEERARAGHAVAN A,ROYCHOWDHURY A K,CHELLAPPA R.Matching shape sequences in video with applications in human movement analysis[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2005,27(12):1896-1909.
[36]CHEN H S,CHEN H T,CHEN Yiwen,et al.Human action recognition using star skeleton[C]//Proc of the 4th ACM International Workshop on Video Surveillance and Sensor Networks.2006.
[37]WANG Liang,SUTER D.Learning and matching of dynamic shape manifolds for human action recognition[J].IEEE Trans on Image Processing,2007,16(6):1646-1661.
[38]JU S X,BLACKY M J,YACOOBZ Y.Cardboard people:a paramete rized model of articulated image motion[C]//Proc of International Conference on Automatic Face and Gesture Recognition.1996:38-44.
[39]MITTAL A,ZHAO Liang,DAVIS L S.Human body pose estimation using silhouette shape analysis[C]//Proc of IEEE Conference on Advanced Video and Signal Based Surveillance.2003:263-270.
[40]CORREAL P,CZYZ J,MARQUEST, et-al. Silhouette based probabilistic 2D human motion estimation for realtime applications[C]//Proc of International IEEE International Conference on Image Proce ssing.2005.
[41]POPPER,POEL M.Example based pose estimation in monocular images using compact Fourier descriptors,TRCTIT-05-49[R].Enschede:University of Twente, 2005. 712