搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
视频行为分析与情感计算
0.00     定价 ¥ 118.00
浙江图书馆
  • ISBN:
    9787030728876
  • 作      者:
    王瀚漓,易云
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2022-10-01
收藏
精彩书摘

第1章绪论
  1.1引言
  21世纪初,科学技术飞速发展,智能手机、数码相机和监控摄像头等视频获取设备广泛普及,这使得视频数据量呈现海量级爆炸式增长。如何高效、智能地分析和管理海量视频数据,已成为急需解决的问题。
  在视频监控方面,与使用网页搜索引擎类似,用户希望能够从海量的视频数据中找到指定内容的视频片段,例如,从大量的视频数据中找出特定人员从事特定活动的视频。在视频内容平台方面,用户希望平台系统能够根据上传的视频自动生成相关的标签或描述。在智慧城市运维方面,政府希望智能监控系统能够根据视频监控数据预警公共安全事件。上述应用场景都要求计算机系统能够智能分析和管理视频数据。
  通常,数字图像可以用二维像素矩阵形式表达,其中蕴含丰富的像素空间信息。随时间变化的数字图像构成视频,其蕴含丰富的时空信息。用视频数据存储信息,能真实、直观地描述现实世界。与图像数据相比,视频数据增加了时间维度,其维度更高、结构更复杂,对其进行智能分析更具挑战性。
  作为智能化管理海量视频数据的关键技术之一,视频内容分析指设计算法以识别或检测视频中的人、物、行为、情感等,具有广泛的应用前景,是计算机视觉领域的研究热点和难点,涉及多个交叉学科。由于视频中的行为和情感是人们普遍关注的焦点,视频行为分析和视频情感计算成为视频内容分析领域的两个重要研究方向。
  1.2视频行为分析
  视频行为分析的主要目的是在视频的时间域或空间域定位人体行为并辨识行为的类别,具有广泛的应用场景,例如,智能视频监控、智能患者监护、智能家居、运动员辅助训练、人机交互、虚拟现实等。视频行为分析的核心研究问题主要包括行为识别(action recognition)、时域行为检测(temporal action detection)和时空域行为检测(spatio-temporal action detection)。由于视频数据维度较高、场景复杂多变、同类行为具有差异性、异类行为具有相似性、行为时间跨度变化较大等,进行视频行为分析极具挑战性。
  一般来说,行为识别是对已分割视频片段中的人体行为进行分类。在早期有关行为识别的研究中,研究重点主要是如何设计一个或一组高效的特征,即基于特征设计的方法。此类方法的主要思想是使用专门设计的特征和编码算法将视频描述为向量,然后使用分类器对基于向量表示的行为进行分类。其中,经典的特征包括时空兴趣点(spatial-temporal interesting point,STIP)特征、方向梯度直方图(histogram of oriented gradient,HOG)特征、光流直方图(histogram of optical flow,HOF)特征、运动边界直方图(motion boundary histogram,MBH)特征[4]、轨迹协方差(trajectory based covariance,TBC)特征5等。在小规模行为识别数据集上,基于特征设计的方法获得了较好的性能;但是,在大规模行为识别数据集上这些方法难以取得成功。随着深度学习理论的成熟和硬件计算能力的大幅提升,基于深度学习的特征提取技术逐渐成为主流方法。其中,比较经典的网络模型包括双流卷积网络(two-stream convolutional network,TSCN)、三维卷积神经网络3Dconvolutional neural network,C3D)、膨胀三维卷积神经网络时间段网络temporal segment network,TSN)和非局部神经网络(non-local neural network,NLNN)等。
  时域行为检测是在未分割的视频中进行行为定位并分类识别,即检测行为的开始时间、结束时间和行为类别。从算法使用的技术角度来看,时域行为检测方法可分为四类:基于滑动窗口的方法、基于分段检测的方法、基于时域提案的方法和基于端对端的方法。基于滑动窗口的方法通过对时间域上的滑动窗口进行分类来获得行为提案,这类方法平均覆盖视频的所有片段,导致行为提案的时间边界不精确,行为检测的准确率较低,计算复杂度较高。在生成帧级或序列级的行为标签后,基于分段检测的方法利用这些标签定义行为的时间域边界。基于时域提案的方法。通常先从视频中生成一组类别无关的候选时间段,再对这些时间段进行分类和时间域边界调整。基于端到端的方法聚焦于构造单阶段检测框架,在端到端的网络中同时进行分类和定位,检测速度相对较快。
  对于时空域行为检测,其目标是在时间域和空间域检测出人体行为发生的起止时间和空间位置,并识别该行为类别。有关时空域行为检测的传统方法主要通过学习行为的局部信息,基于视觉词袋、密集轨迹、可变部件、层级分割、超级体素等方法来检测行为。随着深度神经网络架构的巨大突破,将深度学习应用于时空域行为检测的研究日益增加,已成为主流方法。基于深度学习的时空域行为检测方法主要分为两大类:基于分段检测的方法和基于管提案的方法。基于分段检测的方法般先将视频分成一系列单帧图像或者多帧序列;然后,通过检测每帧或每个序列得到检测结果;最后,在时间域对检测结果进行拼接。基于管提案的方法通常先将视频分为连续帧图像或连续帧序列;然后,对每帧或每段序列生成候选框或候选小管,通过在时间域连接候选框或候选小管而得到
  1.3视频情感计算
  管提案;最后,结合上下文信息对管提案所表征的行为类别进行分类辨识。
  1.3视频情感计算
  视频情感计算(video affective computing)或视频情感分析(video affective analysis)是分析、识别视频所引发观众情感的技术,具有广泛的应用场景,例如,基于情感的个性化内容推送、基于情感的视频检索、人机交互等。
  在情感测量方面,心理学家主要使用两种方法:离散方法和维度方法剛。对于离散方法,一些心理学家认为人类情感具有基本的类别,然而哪些情感属于基本类别还存在争论通常来说,离散方法将情感类别主要分为快乐、悲伤、惊奇、厌恶、愤怒和恐惧等还有一些研究人员提倡使用维度方法表示情感,他们认为效价-唤醒-支配(valence-arousal-dominance)三维模型足以描述人类情感。其中,效价维度衡量快乐的程度,代表“好的感觉”或“不好的感觉”,程度从愉快到不愉快;唤醒维度表征情感的激活水平,是兴奋程度的衡量标准,兴奋特征表现为高生理活动状态,范围从被动到活跃;支配维度代表情感的控制和主导性,从顺从到主导蝴。由于难以衡量支配维度,一般常用二维方法(即效价-唤醒)描述情感。根据Russell的研究情感的类别可以被映射到情感维度空间,即幸福状态与正效价维度值相关,而悲伤状态与负效价维度值相关;放松状态与低唤醒维度值相关,而愤怒状态与高唤醒维度值相关。
  从特征的来源角度划分,视频情感计算方法可以分为两类:隐式视频情感计算和显式视频情感计算。其中,隐式视频情感计算通过分析观众的生理反应来识别视频的情感。由于生理活动和面部表情是情感的主要表达途径,所以隐式视频情感计算方法主要使用观众的生理信号和面部表情作为特征。对于显式视频情感计算,其通常使用视频的视觉和听觉特征来识别情感,相关方法一般由两部分组成,即特征提取和情感学习。从视频中提取视觉特征或音频特征后,显式视频情感计算方法使用分类器或回归器计算视频情感。根据描述情感的方法分类,又可以将显式视频情感计算方法归为两类:基于特征设计的方法和基于深度学习的方法。
  从抽象的角度来看,视频情感内容可以划分为三个层次,即特征层、认知层和情感层。受限于目前计算机视觉、语音识别和机器学习等技术的发展水平,从视频中提取的特征与人类对原始视频情感的理解之间还存在语义鸿沟。由于情感具有主观性和不确定性等特点,分析视频所引发的情感是一个极具挑战性的研究问题。
  第2章光流计算
  2.1概述
  20世纪50年代,Gibson首次提出了光流(optical flow)的概念。Horn和Schunck在1981年提出了第一个光流估计算法,随后多种光流估计算法被提出,光流计算的准确性不断取得突破。有关光流计算方法的发展脉络如图2.1所示。
  通常,视频中运动图像的亮度信息较前一帧图像会产生一定的位移,该位移可用光流表示。光流用二维向量表征,用于衡量视频图像中像素位移的速度和方向。一幅图像中所有像素的光流构成了光流场,蕴含整幅图像的运动信息。对于光流,可用两个分量分别存储水平方向和竖直方向的位移信息,因此,光流场包含两个通道:如图2.2所示,通道U表示图像像素在水平方向的位移,通道F表示图像像素在竖直方向的位移。光流计算在目标跟踪、行为检测、视频压缩等领域均有广泛应用。
  为了直观感受光流场,一般采用孟赛尔颜色系统可视化光流,如图2.3所示。图中的竖轴代表明度,即人眼感受到的光线明暗程度,从全黒到全白分成0-10共11个量级;图中的圆环代表色相,圆环的一周被分成十种颜色,分别是红、红黄(或橙)、黄、黄绿、绿、绿蓝、蓝、蓝紫、紫和紫红(图中紫红被挡住,未予示出);图中的扇形区代表饱和度,即色调的纯度,从扇形内到扇形外饱和度逐渐增加。
  2.1概述
  孟赛尔颜色系统
  光流场可视化就是将每个光流向量根据其速度和方向映射为孟赛尔颜色系统中的颜色值,方便人眼定性地观察光流计算的效果。图2.4展示了两种光流计算方法的可视化效果;其中,与图2.4(b)相比,图2.4(a)的背景颜色变化更加平滑、运动边界锐度更大、光流场质量更高。
  2.2光流数据集
  随着科研工作者越来越意识到深度学习对光流计算的重要性,越来越多的光流数据集被制作出来,用来训练模型和测试性能。当前的光流数据集主要有Yosemite数据集问、Middlebury数据集、Sintel数据集、KITTI数据集,叫、FlyingChairs数据集、FlyingThings3D数据集、Monkaa数据集以及Driving数据集。
  2.2.1Yosemite数据集
  Yosemite数据集诞生于20世纪90年代,其特点是视频图像中左上方的像素运动是发散的,左下方的像素运动速度大约是每帧4像素。由于山峰之间和水平线上的遮挡边界和速度变化,要准确估计Yosemite数据集中的光流具有一定的挑战性;特别是图像的左下部分有严重的混叠现象,造成大部分光流计算方法难以准确估计该部分光流。由于Yosemite数据集过于陈旧,目前已很少用来进行光流计算测试。
  2.2.2Middlebury数据集
  由于光流计算的快速发展,一些早期方法已经在Yosemite数据集上获得了优异的性能,难以进行对比评价,需要设计更符合真实复杂场景、更具挑战性的光流数据集作为基准测试集,对光流计算方法进行更加全面、合理的量化性能评价,Middlebury数据集因此诞生。为使数据集更加符合真实复杂场景,同时降低光流标签制作难度,Middlebury数据集由四个不同特性的数据子集构成,分别是真实场景下的非刚性运动图片、逼真的合成图片、用于帧插值的图片以及刚性场景下的真实立体图片。Middlebury数据集由8对图片组成,部分图片以及光流可视化如图2.5所示。由于数据量过少,Middlebury数据集一般只用于算法性能的基准测试评估。
  2.2.3Sintel数据集
  Sintel数据集[59]中的图片来自三维(three-dimensional,3D)动幽短片Sintel。与Middlebury数据集相比,Sintel数据集规模更大、更复杂,也更具多样性。Sintel数据集增加了许多新的特性,包括长序列视频帧、大幅运动、镜面反射、运动模糊、散焦模糊以及气氛效果。由于电影图像数据的开源性,制作者能够在各类复杂的环境条件下对电影图像进行渲染,增加数据的多样性,使光流计算方法能够在这些多

展开
目录

目录 
第1章 绪论 1 
1.1 引言 1 
1.2 视频行为分析 1 
1.3 视频情感计算 3 
第2章 光流计算 4 
2.1 概述 4 
2.2 光流数据集 6 
2.2.1 Yosemite数据集 6 
2.2.2 Middlebury数据集 6 
2.2.3 Sintel数据集.6 
2.2.4 KITTI数据集 8 
2.2.5 FlyingChairs数据集 8 
2.2.6 FlyingThings3D数据集 9 
2.2.7 Monkaa数据集 10 
2.2.8 Driving数据集 10 
2.3 光流计算性能指标 11 
2.4 光流计算挑战 12 
2.5 传统光流计算方法 12 
2.5.1 基于梯度的光流计算方法 12 
2.5.2 基于匹配的光流计算方法 14 
2.6 基于深度学习的光流计算方法 16 
2.6.1 编码器-译码器结构 16 
2.6.2 基于有监督学习的光流计算方法 16 
2.6.3 基于无监督学习的光流计算方法 26 
2.7 光流计算方法性能对比分析 29 
2.8 光流的应用 33 
第3章 视频行为识别 36 
3.1 概述 36 
3.2 视频行为识别数据集 37 
3.2.1 KTH数据集 38
3.2.2 Weizmann数据集 39 
3.2.3 IXMAS数据集 39 
3.2.4 UIUC数据集 39 
3.2.5 Hollywood2数据集 39 
3.2.6 YouTube数据集 40 
3.2.7 Olympic Sports数据集 40 
3.2.8 TV Human Interaction数据集 40 
3.2.9 HMDB51数据集 41 
3.2.10 UCF50数据集 41 
3.2.11 UCF101数据集 42 
3.2.12 Sports-1M数据集 42 
3.2.13 THUMOS数据集 43 
3.2.14 ActivityNet数据集 43 
3.2.15 ACT数据集 43 
3.2.16 Charades数据集 44 
3.2.17 YouTube-8M数据集 44 
3.2.18 20BN-something-something数据集 45 
3.2.19 FCVID数据集 45 
3.2.20 Kinetics数据集 45 
3.3 视频行为识别性能指标 46 
3.4 基于特征设计的行为识别方法 47 
3.4.1 局部特征描述 48 
3.4.2 特征向量编码 56 
3.4.3 行为类别预测 60 
3.5 基于深度学习的行为识别方法 61 
3.5.1 有监督视频表示学习 62 
3.5.2 无监督视频表示学习 72 
3.6 视频行为识别方法性能对比分析 81 
第4章 时域视频行为检测 83 
4.1 概述 83 
4.2 时域视频行为检测数据集 84 
4.2.1 Coffee-and-Cigarettes数据集85 
4.2.2 DLSBP数据集 85 
4.2.3 MSR-II数据集 86 
4.2.4 GTEA数据集 86
4.2.5 KSCGR数据集 86 
4.2.6 MPII-Cooking数据集 88 
4.2.7 50Salads数据集 89 
4.2.8 THUMOS数据集 90 
4.2.9 ActivityNet数据集 91 
4.2.10 MPII-Cooking2数据集 93 
4.2.11 MultiTHUMOS数据集 94 
4.2.12 MEXaction2数据集 95 
4.2.13 Charades数据集 96 
4.2.14 MERL Shopping数据集 97 
4.2.15 TVSeries数据集 98 
4.2.16 HACS数据集 99 
4.3 时域视频行为检测性能指标 100 
4.3.1 精确率 101 
4.3.2 召回率 101 
4.3.3 平均召回率 101 
4.3.4 曲线下面积 101 
4.3.5 平均精确率 102 
4.3.6 终得分 102 
4.4 时域视频行为检测方法 102 
4.4.1 基于滑动窗口的方法 102 
4.4.2 基于分段检测的方法 107 
4.4.3 基于时域提案的方法 113 
4.4.4 基于端对端的方法 126 
4.5 时域视频行为检测方法性能对比分析 131 
第5章 时空域视频行为检测 133 
5.1 概述 133 
5.2 时空域视频行为检测数据集 134 
5.2.1 UCF-Sports数据集 134 
5.2.2 MSR-II数据集 135 
5.2.3 UCF101数据集 135 
5.2.4 LIRIS-HARL数据集 136 
5.2.5 J-HMDB数据集 137 
5.2.6 Hollywood2Tubes数据集 138 
5.2.7 DALY数据集 139
5.2.8 AVA数据集 140 
5.3 时空域视频行为检测性能指标 141 
5.3.1 准确率 141 
5.3.2 接收者操作特性曲线 141 
5.3.3 平均最佳重叠度 142 
5.4 传统时空域视频行为检测方法 142 
5.4.1 基于判别单元的方法 143 
5.4.2 基于密集轨迹的方法 145 
5.4.3 基于可变部件的方法 147 
5.4.4 基于层级分割的方法 149 
5.4.5 基于超像素体的方法 151 
5.5 基于深度学习的时空域视频行为检测方法 154 
5.5.1 基于分段检测的方法 154 
5.5.2 基于管提案的方法 171 
5.6 时空域视频行为检测方法性能对比分析 178 
第6章 视频情感计算 181 
6.1 概述 181 
6.2 心理学情感模型 182 
6.3 视频情感计算数据集 184 
6.3.1 DEAP数据集 184 
6.3.2 VideoEmotion数据集 184 
6.3.3 LIRIS-ACCEDE数据集 185 
6.3.4 EEV数据集 186 
6.4 视频情感计算性能指标 186 
6.5 基于特征设计的视频情感计算方法 187 
6.5.1 视觉特征提取 187 
6.5.2 音频特征提取 192 
6.5.3 情感模型学习 195 
6.6 基于深度学习的视频情感计算方法 196 
6.6.1 增强型多模深度玻尔兹曼机 196 
6.6.2 多模深度回归贝叶斯网络 199 
6.6.3 自适应融合循环网络 201 
6.7 视频情感计算方法性能对比分析 203 
结束语 206 
参考文献 208 
彩图

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用浙江图书馆的读者帐号和密码进行登录

点击获取验证码
登录