多视角图像融合(融合视觉内容分析的网络视频缩略图的技术发展趋势)

中国论文网 发表于2022-11-17 21:28:36 归属于电子论文 本文已影响405 我要投稿 手机版

       中国论文网为大家解读本文的相关内容:          

 摘要:视频在网站上呈现时,最先映入眼帘的都是一幅静态的封面图像——视频缩略图。主题明确且图像易见的视频缩略图,能让用户在预览时更容易、更快捷地抓住视频主题信息,提高该视频的吸引力,获得更多的点击量和提升用户的浏览体验及观看兴趣。本文针对网络视频缩略图的推荐,在视觉内容分析基础上,通过融合图像易获取性评价和视频内容代表性评价来获得缩略图推荐结果。在网络视频数据集上实施的主客观评价实验表明,本文方法所推荐的视频缩略图与原有人工标注的缩略图相比,有着较好的一致性,能够满足实际应用的需求。
  关键词:视频缩略图; 图像易获取性; 视频内容代表性; 支持向量回归
  中图分类号:TP3914文献标识码:A文章编号:2095-2163(2014)03-0005-06
  Web Video Thumbnail Recommendation by Visual Content Analysis
  ZHANG Weigang1, WANG Zhenjun2, HUANG Qingming2, GAO Wen1, 3
  (1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
  2 School of Computer and Control, University of Chinese Academy of Sciences, Beijing 100049, China;
  3 School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China)
  Abstract:When a web video is shown on the website, its static cover image, which is also called video thumbnail, will firstly come into sight. A good thumbnail, which is easy to be accessed and much relevant to the video theme, can give the browsers as much content information as possible at a glance and makes the video more attractive. It will bring more website traffic and the user’s video browsing experience will also be improved. To attempt to solve the video thumbnail recommendation problem, the paper proposes a new approach based on visual content analysis of video keyframes. This method includes three operations: image accessibility evaluating, video content representativeness evaluating and fusing. The subjective and objective experiments on the web video dataset show good consistency between the recommended thumbnails and the original manual ones, which shows that the presented framework can meet the actual needs.
  Key words:Video Thumbnail; Image Accessibility; Video Content Representativeness; Support Vector Regression
  
  0引言
  近年来,随着数字视频摄录设备的普及和网络社交媒体的快速发展,众多视频分享网站(Video Sharing Sites)涌现出来,吸引了大量的网络用户并获得了非常高的点击量,如著名的YouTube、Google Video和优酷(Youku)等。据YouTube网站统计信息[1]:每月有超过10亿的唯一身份用户访问YouTube;用户每月在YouTube上观看的视频总时长超过60亿小时;而每分钟就有时长可达100小时的视频上传到YouTube。这些视频分享网站拥有海量的各类视频,其中一部分是网站自身提供的,更多的则是由网络用户上传的。如何呈现这些视频,以便有效提升用户的感兴趣程度和观看体验,实现更高点击率,是一项值得研究的工作。当前,绝大多数视频分享网站提供如图1所示的视频缩略图(Video Thumbnail,相当于视频封面),可将视频的主题内容概要做以展现,并辅以标题、点击量、评论数、视频清晰度、内容描述、内容提示标签等文字信息,供用户浏览和点击观看。在这些视频信息中,最先映入眼帘并吸引人眼球的就是视频缩略图。优秀
  图1视频分享网站上展示出的视频缩略图示例
  Fig.1Some video thumbnails shown
  on the video sharing sites
  的视频缩略图,一是要求缩略图里的目标足够显著,使用户“瞥一眼”就能看清其中的物体,尤其是在视频分享网站上缩略图显示尺寸有限的情况下(YouTube上为175×98);二是要求缩略图能够贴切地反映视频的主题内容;这样才能使得用户在快速浏览视频网站时能够看清楚图像并准确获知视频的主题,从而决定是否点击打开后再详细观看。
  那如何自动生成好的视频缩略图呢?本文基于视频关键帧的视觉内容分析,从图像易获取性(Image Accessibility,用来表征视频缩略图里目标显著可见)和视频内容代表性(Video Content Representativeness,用来表征视频缩略图所表达内容与视频主题的吻合度)两个方面展开工作,提出相应评价方法,并根据评价结果融合得到一个有效的网络视频缩略图推荐框架。
  1相关研究工作
  视频缩略图往往来自于视频本身。从视频中选取一幅易获取性高的、且具有良好视频内容代表性的关键帧,即可将其作为视频缩略图用。第3期张维刚,等:融合视觉内容分析的网络视频缩略图推荐智能计算机与应用第4卷
  对于一些视频分享网站,通常是直接从原始视频中根据时间(视频的第一帧、中间帧或最后一帧)等间隔或随机抽取一帧来作为视频缩略图,或者为用户抽取多帧图像再选择其中一帧来作为视频缩略图。这类方法虽然简单易行,但所获得的视频缩略图却具有很大的不确定性,即导致其缺乏足够吸引力以及还能同时由用户接受和认可。此外,其他一些更为优质的方法有:Gong等人[2]和Hua等人[3]考虑将颜色、空间位置以及运动信息作为特征来从视频的每个镜头中选取关键帧。DuFaux[4]则将一些较高层的特征(如检测出的人脸)融合到视频缩略图的生成过程中。Gao等人[5]提出利用一种主题标准来对一个视频的关键帧进行打分排序,从而选择得分最高的关键帧作为相应视频的缩略图,并且要求选出的缩略图能够包含视频上下文中所有文本信息的语义主题。Lian等人[6]则将一系列的高层和低层的视觉特征,如人脸、光照、灰度直方图、彩色直方图等特征进行了阈值选取和加权求和,并以此而作为评价视频缩略图优劣的标准。只是该方法具有一定的缺陷,即这些特征的视觉表现力不够,而且阈值和权值的确定都要依赖于经验式的选取。
  以上方法在选取视频缩略图的关键帧时,一是未具体考虑所用低层或高层特征在视觉上是否具有足够显著性(视觉关注度);二是未考虑所选关键帧本身的视觉显著性是否足够优良,是否足够清晰可见、能让用户一目了然。另外,某些方法仅仅注重视频缩略图与视频上下文的联系是否紧密,但却忽略了其本身需要能够代表整段视频的主题内容。
  针对视频缩略图需具有显著直观的特点,本文从图像显著性分析着手,定义了五个显著性特征指标,并结合纹理特征,利用支持向量回归方法来对视频关键帧进行图像易获取性评价;其次又从视觉内容表达能力出发,利用一种基于帧间相似度的互增强思想[7],来对视频关键帧的内容代表性进行评价;最后,将上述两部分的评价结果通过线性加权融合而选取得到最优关键帧,作为最终的视频缩略图,推荐给视频上传者或其他用户浏览。本文所提出的网络视频缩略图推荐框架如图2所示。框架中,采用基于学习的镜头边界检测方法[8]和基于递归同组滤波的关键帧提取方法来获得源视频的关键帧序列后,再进行图像易获取性评价和内容代表性评价,而后再通过多特征加权融合排序以得到推荐的视频缩略图。
  图2本文提出的视频缩略图推荐框架
  Fig.2Framework of the proposed video
  thumbnail recommendation method
  2图像易获取性评价
  在大部分视频分享网站上,除了首页头条之外,能用于展示视频的空间位置是极为有限的,因此,绝大部分视频缩略图的尺寸都会很小。在如此小尺寸的图像上,若使用户一眼即能看清其中的目标,并感知所表达的内容,就要求图像中的主要目标足够大,且处于居中位置,只有这样才容易被用户注意并捕捉到。此外,由于视频分享网站上的视频来源复杂,拍摄质量参差不齐,基于此而要想获得用户的青睐,其缩略图也必须是纹理丰富、清晰可见的。综上所述,视频缩略图就需要具有较好的图像易获取性,利于用户在极短的观看时间内能够更为完整地接收到其中所表达的视频内容。
  视频图像的视觉显著图(Visual Salience Map)能够直接反映人们在观看该图像时的视觉注意程度。当人们观察一张图像时,图像中不同区域的物体对人眼的吸引力也将是各不相同的。能够吸引大部分注意力的图像部分就是其中的视觉显著区域。若该部分区域在整个图像中占据主要位置,且处于图像中部,则观看者将会更容易捕捉到图像内容。进一步地,若显著性区域中物体的细节,如纹理等能够更为清晰一些,则必将会增加人们的感兴趣程度。因此,为了使得所推荐的视频缩略图能够具备容易被人眼抓取并且理解的特性,本文综合图像视觉显著图特征及纹理特征,提出了一种能够更好切合本文研究问题的评价指标——图像易获取性。
  2.1图像视觉显著图获取
  本文主要采用了Cheng等人[9]提出的基于直方图对比度的视觉显著图的计算方法。该方法依据与其他像素的颜色差异来分配显著性值,并能够产生与原图大小一致的显著图。
  为了充分利用图像的全彩色信息、并且降低计算量,该方法首先将每个RGB颜色通道的256级重新量化为12个不同数值,使颜色数量减少到123 = 1 728。而且为更进一步地减少颜色数目,则仅仅保留高频出现的颜色,并确保这些颜色能够覆盖原图95%以上的像素。剩下的少于5%的像素所占的颜色则由直方图中距离最近的颜色所代替。在颜色重新量化后,图像I中颜色ci对应的显著性值定义为:
  S(ci)=∑nj=1fjD(ci,cj)(1)
  其中,n为量化后图像的颜色总数,fj为cj在图像I中出现的概率。D(ci,cj)为颜色ci和cj在L*a*b*空间的颜色距离度量,具体可参见文献[10]。得到颜色ci的显著性值S(ci)后,则可将图像I中所有颜色为ci的像素对应的显著性值也置为S(ci),由此而生成I的视觉显著图。在后续处理上,为了减少颜色量化所带来的噪声,还可对其进行平滑处理。
  基于视觉显著图,本文定义了5个量化指标来衡量图像中显著内容的易获取性。对这些指标则进行如下描述。
  (1)平均显著度。为了评价整幅图像的显著性,不仅要考虑一些显著区域的显著性数值,更要考虑到这些显著性区域在整幅图像中发挥的作用处于何种等级。因此,引入平均显著度来表征整幅图像的显著性大小。平均显著度计算如下:
  Sal_Ave=∑Hi=1∑Wj=1sal(i,j)(2)
  其中,H和W表示图像的高和宽,sal(i,j)表示原图像对应的显著图中第i行j列像素的显著性值。
  (2)水平方向显著中心的位置。对视觉显著图进行垂直投影,也就是将显著图中所有像素点按行累加。其后设定一个适当阈值,将超过该阈值的水平位置判定为具有显著性的区域。这些水平位置的平均值就是水平方向的显著中心。具体计算公式为:
  Sal_x=1N∑Nk=1Sal_X(k)(3)
  Sal_X={j|∑Hi=1sal(i,j)-T>0}
  其中,Sal_x为所求水平方向显著位置中心;T为设定阈值,Sal_X则是判定为显著区域的水平坐标集合,且N为元素个数。
  (3)垂直方向显著中心的位置。垂直方向显著中心的位置可由对视觉显著图进行水平投影来展开计算,方法与(2)中类似,不再赘述。
  (4) 水平方向显著位置散度。水平方向显著位置散度,用以表征图像中显著区域在水平方向上的离散程度。显著区域水平方向的坐标集合选取方法和公式(3)中相一致。位置散度计算如下:
  Sal_Vx=1N∑Nk=1(Sal_X(k)-Sal_x)2(4)
  (5)垂直方向显著位置散度。垂直方向显著位置散度的定义类比(4),计算方法则与公式(4)类似。
  通过以上5个有关显著性的量化指标,可获得图像整体的显著性程度,以及图像中显著性区域的位置分布情况等重要信息。阈值T是通过将投影生成的直方图进行归一化后,再历经多次实验而选取确定的。由于网络视频图像的大小不一,单一方向上的投影值将直接受到图像宽度和高度的影响,因此归一化就成为至关重要的实现步骤。实验发现,T=0.96时,所选取的显著性区域效果较好。
  2.2纹理特征计算
  纹理是一种重要的视觉线索,本文采用简单易于实现且效果良好的基于灰度共生矩阵的纹理特征提取方法[11]。其中定义的5个纹理量化指标则用于评价视频帧图像的易获取性。
  (1)能量。即角二阶矩(Angular Second Moment),为灰度共生矩阵所有元素值的平方和,反映了图像灰度分布均匀程度和纹理的粗细度;
  (2)对比度。反映了图像的清晰度和纹理沟纹深浅的程度;
  (3)相关。度量空间灰度共生矩阵元素在行或列方向上的相似程度;
  (4)熵。表示图像所拥有信息量的度量;
  (5)逆差矩。同质性(Homogeneity),反映图像纹理的同质程度,度量图像纹理局部变化的多少。
  实验中选取0°,45°,90°,135°方向上距离为1的两个像素作为计算单元,将图像划分为的4×3小块,并算得4个方向上的各个特征值再取平均,构成60维纹理特征向量,用于评价该图像的易获取性。
  2.3图像易获取性得分计算
  将5维视觉显著性特征和60维纹理特征组合,得到视频关键帧的65维图像易获取性特征向量。之后,本文参照图像质量评价中基于学习的方法[12],利用人工标注后的训练样本,通过支持向量回归学习而得到分类回归模型,并使用该模型对视频关键帧进行图像易获取性打分,具体如图3所示。这类学习方法适应性强,并且能较好地处理一些缺乏先验知识的问题。
  图3图像易获取性得分的学习评价框架
  Fig.3Framework of the learning-based
  evaluation method for image accessibility
  针对人工标注后的训练样本T={(x1,y1),(x2,y2),…,(xL,yl)},其中,xi为视频关键帧的图像易获取性特征向量,yi表示人工评价的易获取性得分。采用基于SVM的支持向量回归方法,拟合得到的图像易获取性得分评价函数如下:
  Accessibility(x)=<w, Φ(x)>+b(5)
  并采用含有松弛变量的优化模型:
  <w,b>=arg minw,b12‖w‖2+C∑li=1(ξi+ξi*)
  -<w,xi>-b≤ε+ξi
  <w,xi>+b-yi≤ε+ξi*
  ξi,ξi*≥0(6)
  3视频内容代表性评价
  本文引入了基于互增强(Mutual Reinforcement)操作的排序算法[7],用以评价各关键帧的视频内容代表性分值,并选取得分最高的关键帧来作为候选视频缩略图。互增强是指任意两个对象之间的相似度均可用于计算,从而增强某一对象的代表性分值。已经证实,这种基于互增强的排序算法在多种应用中都具有显著可见的较好效果。对于视频关键帧序列K={ki,i=1,2,…,N},记关键帧ki和kj的图像相似度为sij,ki的视频内容代表性得分为ric,则有:
  ric=∑Nj=1sijrjc(7)
  由该定义可以看出,任意一幅关键帧的视频内容代表性分值都是由所有关键帧的内容代表性分值累计构成的。具体计算过程可见算法1。算法1:基于互增强操作的视频内容代表性评价输入:视频内容代表性初始得分:r0=(0,0,…,0)1×N输出:视频内容代表性最终得分:r0=(r1,r2,…,rN)1×NbeginInitializer0=(r10,r20,…,rN0)1×Nrandomly,t1such that∑Ni=1 ri0=1andi, ri0>0while‖rt-rt-1‖>eps(such that 10-5)dorit=∑Nj=1 sijrjt-1 , i∈1,2,…,Nritrt‖rt‖, ‖rt‖1=∑Ni=1 rti , tt+1endend
  4多特征融合排序
  在获得关键帧ki的图像易获取性得分Accessibilityi和视频内容代表性得分ri后,通过简单的线性加权融合方式计算最终得分Ri为:
  Ri=εAccessibilityi+(1-ε)ri(8)
  其中,ε为可调参数,保证最终得分Ri在0~1之间(本文中,ε=0.5)。
  此后,基于最终评价得分Ri进行排序,选取最大Ri值对应的视频关键帧,并将其作为所推荐的视频缩略图结果。
  5实验结果
  下面以优酷网站上一段头条视频为例——“日本东部发生F5级龙卷风”(该段视频包含有6个镜头),给出视频缩略图的完整推荐过程。先对源视频进行镜头分割和关键帧提取,再利用基于直方图对比度的显著性值计算方法来得到视觉显著图,如图4所示。
  根据视觉显著图计算得到平均显著度等5个量化指标,并对原图像提取60维纹理特征,构成65维的特征向量后送入已训练完成的图像易获取性评价模型中,得到关键帧的图像易获取性评分,结果如图5所示。其中,图5(a)给出了得分排序最靠前的3幅关键帧图像。然后利用互增强操作对关键帧序列进行视频内容代表性得分评价,图5(b)则给出了得分排序最靠前的3幅关键帧图像。
  图4提取出的关键帧序列及对应的视觉显著图(线框标记)
  Fig.4The extracted keyframes and their visual saliency maps
  图5单一排序最靠前的3幅关键帧图像
  Fig.5The top 3 key frames
  图6推荐的视频缩略图与原图对比
  Fig.6Comparison of the recommended
  video thumbnail and the original image
  最后,通过图像易获取性分值与视频内容代表性分值的线性加权融合排序,得到最终推荐的视频缩略图,如图6左边所示。与原网站上给出的视频缩略图(对于视频分享网站上的热点头条视频,其缩略图往往是专业人员手工精心选定的)相比,本文方法推荐的视频缩略图与之是基本一致的。
  5.1推荐结果与人工标注结果的对比实验
  从Youku网站下载了50个热点短节目视频,将通过所提出框架生成的推荐缩略图与原网站中已有的专业手工标注的缩略图进行了对比实验,结果如图7(a)所示,一致率为72%。判断所推荐的视频缩略图与原始人工标注缩略图是否一致的准则是:将最终得分排序最靠前的3幅候选视频缩略图逐一与Youku上的原始人工标注缩略图进行基于直方图的相似度计算,当其平均相似度超过一定阈值(经过实验确定该阈值可取值为0.785)时,则认为上述两者是一致的。
  图7实验结果
  Fig.7Experimental results
  5.2用户主观评价实验
  为了进一步证明本文方法有效性,邀请了10位熟悉网络视频的用户来对系统推荐的视频缩略图结果进行主观评价。由于视频上下文环境(如标题、标签等)的影响,用户是拥有一定的视频语义先验的,这将更加有利于主观评价实验。在此将系统推荐的视频缩略图与从视频中随机抽取的一帧进行了比较,分为较好、较差两种评价,结果如图7(b)所示。50个随机下载的网络视频中有42个(占84%)由系统推荐生成的视频缩略图的效果要好于随机抽取的视频帧,只有8个的效果较差。可见,本文提出方法能够有效地实现网络视频缩略图的推荐。
  5.3特征选择的影响
  为了评测不同特征的使用对所提出方法性能的影响,本文采用以下三种方式来实施对比实验:仅用图像易获取性特征(SCA)、仅用视频内容代表性特征(MR)及两者加权融合(SCA-MR),结果如图8所示。在recall较低时,系统只选出与人工标注缩略图最一致的关键帧作为推荐结果,而忽略掉更多连续的相似帧,并且SCA-MR的性能要好于SCA及MR。而在recall要求较高时,由于会同时引入较多的噪声视频帧,因此SCA-MR与其他二者的优劣性对比并不明显。
  5.4网络视频长度的影响
  本文所提出框架主要是针对网络视频的缩略图生成推荐。众所周知,在视频分享网站上出现的大部分网络视频的时长都较短,多是分布在1~10分钟之间,且视频内容也相对比较单一集中。
  为了测试本文框架对源视频长度的适应性,将从视频分享网站上收集到的400个视频按其时间长度划分为小于1分钟、1~4分钟、4~8分钟及大于8分钟的4组实验数据。在此基础上,分别采用SCA、MR及SCA-MR方法进行对比实验,对比结果如图9所示。
  图8性能对比实验结果
  Fig.8The performance comparison results
  图9不同视频长度对推荐性能的影响
  Fig.9The results for different video lengths
  视频时长小于1分钟,系统推荐结果和人工标注缩略图的一致程度在60%左右;而对于1~4分钟以及4~8分钟这些中长度的视频,系统推荐的效果较好,与人工标注缩略图的一致率超过了70%。随着视频时长的进一步增加,推荐结果的一致率再次降低到60%左右。这种整体所呈现的正态分布性可以解释为:时长较短的视频,内容较少,较短的关键帧序列本身的相似度就较高,因此缩略图可选范围小、选取风险较大。对于时长超过8分钟这种较长的视频,由于提取的关键帧较多,不免会引入更多噪声视频帧,因此系统的整体推荐性能有所下降。而对于时长适中的视频,就可在避免噪声视频帧的同时涵盖更多的视频关键帧,这无疑必将有利于系统的推荐准确性。此外,还能够看到,多特征融合的方法均要好于仅使用单一特征的方法。
  6结束语
  本文主要针对网络视频的缩略图生成问题,从缩略图要纹理清晰、易于在很短时间内由浏览者捕捉到其中主要目标,且能够较好表达整段视频的主题内容等角度考虑,利用视频关键帧的视觉显著图并结合纹理特征来构建图像易获取性评价指标;同时利用图像相似度计算和互增强操作来构建视频内容代表性评价指标;而且通过对候选缩略图序列(即视频关键帧序列)进行图像易获取性和视频内容代表性评价得分的线性加权融合排序,并将综合评价得分最高的候选帧作为最终的视频缩略图推荐给用户,从而提高用户观看整段视频的吸引力和可能性。该系统主要针对时长较短的网络视频,有较高的实时性。但在实验过程中却已发现,互增强操作在候选缩略图序列含有帧数较多时,收敛速度将会变慢,系统的实时性也会下降。因此在后续研究中,需努力探索更加鲁棒的视频内容代表性评价排序方法,提高其适应性,并将其拓展到较长的网络视频上。
  参考文献:
  [1]YouTube网站统计信息(观看情况).
  [2]GONG Y H, LIU X. Generating optimal video summaries[C] //Proceedings of the 2000 IEEE International Conference on Multimedia and Expo (ICME). New York, USA: IEEE, 2000:1559-1562.
  [3]HUA X S, LI S P, ZHANG H J. Video booklet[C] //Proceedings of the 2005 IEEE International Conference on Multimedia and Expo (ICME). Amsterdam, The Netherlands: IEEE, 2005:189-192.
  [4]DUFAUX F. Key frame selection to represent a video[C] //Proceedings of the 2000 IEEE International Conference on Image Processing (ICIP). Vancouver, BC, Canada: IEEE, 2000:275-278.
  [5]GAO Y L, ZHANG T, XIAO J. Thematic video thumbnail selection[C] //Proceedings of the 2009 IEEE International Conference on Image Processing (ICIP). Cairo, Egypt: IEEE, 2009: 4333-4336.

  中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。

返回电子论文列表
展开剩余(