编辑器/LiveVideoStack
大家好,我是来自百度的王伟。我这几年一直从事视频质量评估工作,经历了百度视频质量评估从无到有、从不相信到自信、从小规模到大规模的整个过程。过程。
总体从四个方面进行介绍。首先我们会介绍视频质量评估的重要性,其次是我们面临的问题和挑战,然后我们会介绍我们针对问题的解决方案,最后我们会介绍在百度业务线的实践。
-01-
视频质量评估的重要性
判断一件事的重要性,判断它是否值得做,我总结了两点。首先是确认事物的流行度和趋势。
为了评价视频质量,我整理了两条数据。一是近二十年来视频质量关键词的谷歌搜索趋势。总体来看,2022年至今搜索热度持续上升,未来可能会继续受到关注。其次,LiveVideoStackCon上视频质量评估的话题自2017年以来逐年增多,从趋势和热度来看,视频质量评估已经成为一项相对重要的任务。
二是分析视频行业视频质量评价工作的现状。视频质量评估体系是图像质量增强、编解码器优化和QoE工作的基石。可以说,它是视频行业红海中的一座蓝岛,值得我们学习。对于TO B厂商来说,视频质量评测工作更是大有可为。拥有成熟的视频质量评估体系,可以帮助判断各种增强算法和HDR等技术的优劣。我相信这项工作未来在行业中会变得越来越重要。
-02-
面临的问题和挑战
接下来介绍一下我们在视频质量评估工作中面临的问题和挑战。具体从四个角度进行分析。首先介绍了视频质量评价体系,其次介绍了传统算法在实践中遇到的问题,再次介绍了实际中主观评价存在的问题,最后介绍了业务面临的问题。
大家都熟悉视频质量评价体系中的主观评价和客观评价。作为工程师的从业者可能会更关注算法,而轻视主观和客观的评价。
但事实上,经过实践分析发现,主观评价是视频质量评价体系中不可或缺的重要组成部分。例如,在HDR/SDR评测场景中,视频质量与设备、屏幕亮度等因素直接相关,很难仅仅从算法角度来衡量。另外,如果涉及到购买编解码器,无论卖家提供的算法评分有多高,我们仍然不能轻易相信。视频的质量最终还是要通过主观评价来判断。
检测分析是我们根据实践在系统中添加的一个环节,因为很多编解码不仅仅针对CODEC,还可能对帧序列等方面进行优化。例如,某CODEC上线后,我们发现虽然视频质量有所提升,但视频帧间隔顺序进行了调整,导致视频卡顿率急剧上升。因此,我们在主客观评价的基础上,额外增加了一个检测分析环节,形成了目前的视频质量评价体系。
接下来我们介绍一下传统算法在实践中遇到的问题。我们认为传统算法是一把双刃剑,使用不当会导致各种错误的结论。以PSNR为例,由于它是在信号层面计算的,而损耗是在整个帧内计算的,因此与主观感知有很大不同。
从上图右侧的图像中我们可以发现,视频B中天空和云彩的位置受到了很大的破坏,但其PSNR值却达到了38,对应的MOS分数也差不多是4了。结果其实还不错,这明显不符合人眼的主观感受。
其次,如果两个视频的PSNR值一致怎么办?对于4K等高清视频,在计算全局空间中的PSNR值时,两个视频的结果很可能是一致的。上图中左边的图像中,两个视频的PSNR值都是42,仅根据PSNR结果很难判断哪个视频质量更好。
SSIM存在哪些问题? SSIM解决了块问题并引入了亮度、对比度和结构信息。它通常比PSNR 更好。但在实际使用过程中,我们发现了两个问题。首先,SSIM有多个实现版本。不同的版本可能会导致不同的结果。使用前一定要注意确认版本。
二是FFmpeg的SSIM过滤器存在bug。我们对过滤算法进行了逆向分析,并对照公式回顾了代码实现。我们可以发现代码中亮度因子的计算存在问题。上图右侧为对比结果。绿线是正常结果,红线是乘以64后的结果,虽然对整体结果影响不大,但还是需要注意一下。
VMAF的情况比较复杂,整体计算流程如上图。首先,商业视频类型和模型训练数据之间存在较大差异。 VMAF的默认模型是基于Netflix的HDTV数据训练的,这与我们当前的UGC场景不一致。这会导致视频质量评分和主观评价结果存在较大差异。我们用这个标准模型在自己的数据集上进行实验,评分一致性只有60%,需要大家注意。
第二个问题是,目前大多数消费场景是手机,VMAF的手机评分采用二次函数来拟合HDTV的结果。对此应特别注意。
最后,还有传统算法在增强场景下的问题。许多传统算法在增强场景下会失败。以上图为例,我们将左图的视频对比度放大一倍,观察各项质量指标。结果如右图所示。从VIF值可以看出视频质量得到了提升。虽然PSNR和SSIM值较差,但这并不意味着视频质量较差。虽然VMAF值达到100,但与MOS分数5有不同的含义。以上问题也应该注意。
下面我们就实践中主观评价中存在的问题进行介绍。目前主流的方法是基于ITU-R BT.500的图像质量评估方法,但该方法存在成本高、评估效率低、与移动体验不兼容等问题。
因此我们设计了网页版的评测方法,但是在使用过程中却出现了很多问题。例如,浏览器的观看体验和移动体验之间也存在差异。上图分别是浏览器和手机端的视频截图。可以发现图片中的蓝色偏差较大。第二个问题是无法随时随地评估;第三个问题是网页版无法评估HDR、端到端超分等场景。最后还有一个关于BT.500置信度筛选算法的问题。由于其置信度是基于统计显着性的,因此在一些不具有统计显着性的特殊非随机场景中会出现异常。例如,如果针对一批质量较差的视频进行评论,算法会忽略用户评分的置信度。
综上所述,在业务发展初期,百度视频质量评价面临以下问题:
首先评价不准确,其次无法评价HDR等场景,最终导致评价不愉快。
-03-
解决问题的实用方法
基于刚才提到的问题,我们来介绍一下我们解决问题的实际方法。它将分为四个部分。第一个是工具优化,第二个是工具集成,接下来是评价体系的服务化,引入更多的人参与,最后介绍一下目前的成果。
我们先来看看工具优化。刚才提到,算法工具的正确使用是评估工作的关键。在优化算法和优化结果可分析两种思路中,我们最终采用了优化结果可分析的解决方案。
在优化过程中,我们尝试将其尽可能地嵌入到FFmpeg过滤器中。如果无法嵌入,我们会构建一个单独的工具包。整体算子如上图所示,后面会详细介绍。
PSNR可视化解决了当两个视频的PSNR一致时如何选择的问题。我们采用分块单独计算PSNR的优化方法。由于这会导致PSNR数据过多难以分析,因此将划分后的PSNR值分级为灰度,将PSNR值所在的0到60范围映射为8位灰度图像并以视频的形式呈现。出来后效果如上图所示。您可以看到每个像素处PSNR 的损失。
关于视觉信息,刚才提到PSNR值低并不意味着视频效果不好,所以我们额外关注HSL、对比度、颜色、纹理等指标。 HSL 中的色调和饱和度非常有趣。当时我们正在和UE一起做一个项目。 UE想要找到一些不好的案例来分析色调和饱和度对图像质量的影响。我们使用FFmpeg滤波器提交计算结果后,UE给出了反馈。结果是错误的。
经过逆向分析发现,FFmpeg滤镜的色调和饱和度是在YUV的基础上计算的,与真实的HSL空间计算有较大差异。
我们研究并重写了计算色调和饱和度的算法。上图为实际效果。上图中的颜色值,使用signalstats过滤器计算出来,其色调和饱和度分别为130和77。事实上,使用ColorSlurp工具计算,其色调为30,饱和度为95%。使用我们的visualstats过滤器,您可以看到结果与ColorSlurp工具的结果基本相同。
关于对比度的计算,目前有很多相关算法。我们借鉴了SSIM算法中的对比度评估方案,利用像素邻域内的标准差进行对比度估计。因此我们计算了4×4 局部空间的标准差,并将其用作图像对比度。最后,效果还是不错的。
我们设计了两种纹理计算方法。第一种是采用颜色直方图方法,与Matlab的方法一致。第二种是先进行Sobel滤波,滤波后进行双阈值滤波,然后计算非黑色像素的比例。比较。两种方案的计算结果没有太大差异,因此建议使用更简单的直方图计算方法。
对于色彩丰富度来说,就是判断画面中色彩的明度和丰富程度。我们采用上图中论文的思路来计算。思路是先将颜色空间转换为RGB,然后利用图片中的公式计算图片的丰富度。
我们将上述指标的所有算法集成到FFmpeg过滤器中,并使用之前双倍对比度的视频来计算各种指标。可以看出,对比度计算结果与实际情况相符,且对比度提升带来的其他指标变化也基本一致。符合人眼感知。
接下来介绍主观评价工具的优化过程。基于百度强大的视频技术基础设施,我们开发了一款自主开发的支持多终端的主观质量评价APP,我们称之为灵精(度之道)。通过视频评测移动化,可以更加符合用户消费场景,随时随地进行评测。可以从几个方面简单介绍一下这个工具的功能。首先,支持PC、iOS、Android三大平台的评估设备。二是支持所有评价方式、评价方式。最后,支持SDR/HDR和终端超分辨率。以及各种媒体形式。
视频加载中.
视频加载中.
灵境APP的实际效果如上图。左侧为单帧模式效果。从事编解码优化的同事可能比较关心。中间一种是比较常用的普通全屏模式。为了增强对比度,我们还设计了支持拖放的水平全屏模式。针对短视频,我们在右侧设计了垂直全屏模式,也支持对不同维度的视频进行专业评分。灵镜已正式上线。您可以搜索“独之道”下载并体验其他功能。
上面主要介绍了主观评估工具的相关问题,其次是流程的问题。我们发现,人们在评价过程中会有一种惰性。评估者对评估序列中前一个视频的评分会影响后续视频的质量判断,导致评估结果不准确。
针对这个问题,我们调整了评测过程中的用户交互。首先,我们将评估方式改为双盲评估,并随机交换视频的顺序,以混淆评审者对评估顺序的印象。其次,使用自建的控制视频库,通过在评估任务中随机插入控制视频来控制用户信心。三是上报评分信息,包括型号、屏幕亮度、全屏模式、评分时间等。
整体流程如上图所示。需要评估的视频与控制视频整合后形成评估任务。任务通过PC、iOS和Android分发给评估人员进行评分。完成置信度筛选后,形成最终的视频MOS分数。右下角是评价结果的例子,是多个评价者对一个视频的评分。通过分析各类信息可以综合判断评分置信度。
算法工具和评估流程完善后,我们收到了大量的视频评估需求。按照原来的流程,每次评估都需要手动拆分任务列表,根据需要创建和分发评估任务,最后手动合并任务结果。该流程无法满足大量评估的需要。
因此我们考虑了算法工具的平台集成,将评估过程划分为多个不同的评估场景(其作用类似于模板),具体将场景分为三个部分:任务类型、调度算子和结果分析。具体结构如中图所示。对于不同的任务类型,调度器会调度该类型下的所有算子,最终对应不同的结果聚合和解释方式。这种方法大大提高了工作效率。
从整体架构来看,我们利用评估场景的理念,集成优化的客观算法和主观评估工具,以服务为基础调度底层能力,最终达到任务自动拆分和智能分析的效果。结果。使用该方法可以满足处理大量视频评估的需求。
综合视频评估流程如上所示。收到评估需求后,首先选择合适的评估场景,然后调度器调度相应的主观评估、SITI、客观算子、分析算子等进行计算。其中,客观算子部署在百度内部FaaS平台上并通过API接口暴露,主观评价则通过内部工具或通知来招募用户,然后完成用户评分。同时,还有调度操作员实时检测每个操作员的工作进度,并在所有计算完成后,调动分析操作员形成最终的测试报告。
接下来我们来看一个应用示例。上图左侧为常用的评估场景。选择相应的视频比例并上传视频后,即可等待视频评估结果。结果如右图所示。它将根据百度内部的要求显示各种结论。例如,右图中的主观分析结果显示了两种编解码器的GSB分布。 Positive(good)32%表示A编码器32%的视频质量优于B编码器。相同意味着A的视频质量有66%与B的基本相同,负面(不好)为2%。可见A的优化是成功的,可以尽快上线。
除了分析结果之外,评估结果还将提供许多质量指标供分析,包括码率分布以及场景对应的所有运营商的计算结果。该机制以主观为主,客观为辅,辅助业务方分析。
随着算法工具优化和平台整合的完成,2022年以来百度主观视频质量评测任务快速增长,评测人员数量成为主要瓶颈。
为了满足评估需求,我们计划引入更多外部评估人员,主要原因有三个。首先,评估平台具有完善的置信度判断能力。其次,保证公司内部用户的参与度和信心。第三,视觉和听觉是人类与生俱来的能力。公众对视频质量有着与生俱来的判断能力。这与需要培养的艺术欣赏不同。
因此,我们建立了一个由评审员组成的三级火箭模型。第一级由读智团队内部成员组成,可吸纳少量审核需求。如果评估量较大,达到每天300至500个,则由公司系统内部人员处理。如果每天的任务量超过1000条,就会聘请外部众包团队来解决问题。从成本上来说,如果7个人对公司系统中的单个视频进行评价,则成本为0.2元。外聘成本较高,单个视频成本在1~2元左右。
在实践中,我们发现评价单个视频的人数与相应评价结果的准确性之间存在相关性。人数越多,评估结果与专业结论越一致。根据我们的惯例,建议人数为17至19人。上面的方法很实用。工作时可综合考虑成本、工期、质量等因素来使用。
以上是百度视频评价系统目前的运行效果。目前支持超过80个评估场景,内部评估效率可达每天500个。如果使用外部人员,效率会更高,置信度达到90%。
上图是视频评价系统服务化后承担的评价任务数量的趋势图。可以看到,整体数量呈指数级增长。
-04-
灵精的商业实践(杜之燎)
接下来我们就来介绍一下灵静(杜之灵)的经营手法。主要分为三个部分。第一个是灵精(独智岛)运营模式的实践,第二个是云转码阶段的实践,最后是用户播放阶段的实践。
与上面提到的视频评测系统相比,我们在运营阶段整合了公测用户操作,形成了一个名为度智的服务体系。该系统只有一个外部接口。用户付费,平台反馈视频评价结果。
百度视频业务的三个阶段都采用了这种模式。首先是云转码。在编码阶段,目前百度推出的所有编解码器均由度智进行评审,以确定接入标准,如昆仑核心、BD265、超分辨率算法、第三方编解码器等。第二个是审核阶段。度智主要负责为策略提供模型训练的标注数据。第三个是用户播放阶段,主要负责提供一些播放/转码优化策略。
其总体技术价值在于将视频质量评估算法、工具和人员整合为高效、自信、适合多种场景的视频质量评估服务。商业价值意味着有效控制成本,让业务线上的每一分钱都花得值。
接下来我们将介绍度智在云转码阶段的业务实践。首先我们以刚才提到的两个PSNR相近的视频的优化结果为例。右图是利用优化算法得到的PSNR可视化分析图。可以发现,编码器A在边缘上的损失比较大,编码器B的稳定性更好。可视化分析给出了更直观的结论。
在转码过程中,我们发现色彩空间转换后图像的亮度和对比度变化较大,PSNR的可视化效果也较差。在编解码时,可以根据优化算法的计算结果对原始图像进行优化,以提高优化后视频的质量。
在用户播放阶段,我们利用独智雕的视频质量评估系统来分析视频源的特征,选择合适的转码策略,并根据相应的策略辅助进行AB实验。
这个想法可以提高AB实验的效率,例如:为了保证用户观看体验的同时,合理控制视频的音频码率和需要图像质量增强的视频数量,节省公司成本。通过度智视频评估系统的前期导入,协助业务线进行小规模实验,可以为策略制定和AB实验策略提供有效的决策支持。
百度目前的AB实验流程如上图。首先进行团队内部策略验证,然后在公司内部进行主观观察和评估,扩大样本,最后将样本推送到线上进行AB实验。整个过程需要很短的时间。一个编解码器的实验目前可以在10天左右完成,其中新代码的评估时间只有1天。百度视频评价彻底扭转了“无法快速评价、不准确、无法评价”的历史局面。
用户评论
相知相惜
百度视频质量评测的实践路径,这听起来很专业啊!我平时就喜欢看视频,但有时候视频质量真的很影响观看体验。希望百度能在这方面做出改进。
有14位网友表示赞同!
还未走i
百度视频质量评测,这个话题很有意思。我一直觉得百度视频的资源挺丰富的,但如果能提升视频质量,那就更好了。
有18位网友表示赞同!
怪咖
百度视频质量评测的实践路径,这让我想到了以前看视频时遇到的很多问题。希望百度能认真对待,别让用户失望。
有10位网友表示赞同!
▼遗忘那段似水年华
百度视频质量评测,这个路径得看百度怎么实施了。如果真的能提高视频质量,那我会给百度点个赞。
有6位网友表示赞同!
有你,很幸福
百度视频质量评测的实践路径,期待看到百度在视频质量上的新突破。毕竟,好的视频内容才是留住用户的根本。
有5位网友表示赞同!
情如薄纱
百度视频质量评测的实践路径,这个话题很有深度。希望百度能分享更多细节,让我们也了解一下背后的努力。
有16位网友表示赞同!
笑叹★尘世美
百度视频质量评测,我觉得这是一个很好的尝试。不过,视频质量提升的同时,也要注意版权问题,别让好内容流失。
有13位网友表示赞同!
限量版女汉子
百度视频质量评测的实践路径,听说百度要在这方面发力,作为用户,我当然希望看到更好的视频体验。
有9位网友表示赞同!
素衣青丝
百度视频质量评测的实践路径,希望百度能借鉴其他平台的优点,把我们的观看体验提升到一个新高度。
有20位网友表示赞同!
摩天轮的依恋
百度视频质量评测,我觉得这个实践路径挺有挑战性的。期待百度能拿出实际成果,让用户感受到变化。
有10位网友表示赞同!
良人凉人
百度视频质量评测的实践路径,这个话题让我想起了之前在百度视频上看到的那些画质模糊的视频。希望百度能解决这些问题。
有6位网友表示赞同!
淡淡の清香
百度视频质量评测的实践路径,百度这个做法我很支持。视频质量好了,我们看视频的心情也会好很多。
有6位网友表示赞同!
屌国女农
百度视频质量评测,我之前在百度视频上看过很多广告植入的视频,希望百度在提升质量的同时,也能改善广告问题。
有6位网友表示赞同!
?娘子汉
百度视频质量评测的实践路径,这个路径的关键在于执行力。希望百度能持之以恒,别让用户等太久。
有10位网友表示赞同!
今非昔比'
百度视频质量评测,期待百度在视频质量上有所作为。毕竟,现在有很多优秀的视频平台,百度不能掉队。
有13位网友表示赞同!
月下独酌
百度视频质量评测的实践路径,这个话题让我想起了之前看视频时遇到的卡顿问题。希望百度能从源头上解决这些问题。
有7位网友表示赞同!
为爱放弃
百度视频质量评测,百度视频的用户基数那么大,如果能在质量上有所提升,那绝对是件好事。
有17位网友表示赞同!
单身i
百度视频质量评测的实践路径,希望百度能在这个领域做出表率,带动整个行业的视频质量提升。
有17位网友表示赞同!
初阳
百度视频质量评测,我之前对百度视频的印象并不好,但听说百度要改进,我也愿意给他们一个机会。
有8位网友表示赞同!