视频多方法评估融合

维基百科,自由的百科全书

视频多方法评估融合 (Video Multimethod Assessment Fusion,VMAF ) 是Netflix南加州大学南特大学IPI/LS2N 实验室以及德克萨斯大学奥斯汀分校图像和视频工程实验室 (LIVE) 合作开发的客观的全参考视频质量指标。它根据参考和失真的视频序列预测主观视频质量。该指标可用于评估不同视频编解码器、编码器、编码设置或传输变体的质量。

历史[编辑]

该指标基于南加州大学 C.-C. Jay Kuo 教授小组的初步工作。[1][2][3] 他们研究了使用 支持向量机 融合不同视频质量指标的可实现性,从而产生了“FVQA(基于融合的视频质量评估)指数”,该指标已被证明在主观上优于现有的图像质量指标视频质量数据库。

该方法已与 Netflix 合作进一步开发,使用不同的主观视频数据集,包括 Netflix 拥有的数据集(“NFLX”)。随后更名为“视频多方法评估融合”,它于 2016 年 6 月在 Netflix 技术博客上宣布[4],参考实现的 0.3.1 版在许可的开源许可下提供。[5]

2017 年,该指标进行了更新,以支持自定义模型,其中包括对手机屏幕查看的调整,从而为相同的输入材料生成更高的质量分数。 2018 年,发布了一个预测高达4K分辨率内容质量的模型。训练这些模型的数据集尚未向公众提供。

2021 年,Beamr、Netflix、南加州大学德克萨斯大学奥斯汀分校、SSIMWAVE、迪士尼、谷歌、Brightcove 和 ATEME 因开发视频编码优化的开放感知指标而获得了技术与工程艾美奖英语Technology & Engineering Emmy Awards。这是大学 20 年来第二次获得艾美奖。这也是法国大学第一次获得一个。 [6] [7]

组件[编辑]

VMAF 使用现有的图像质量指标和其他功能来预测视频质量:

  • 视觉信息保真度(VIF):考虑四个不同空间尺度的信息保真度损失
  • 细节损失指标 (DLM): [8]衡量细节损失和分散观众注意力的损伤
  • Mean Co-Located Pixel Difference (MCPD):测量 亮度分量 上帧之间的时间差异

上述特征使用基于 SVM 的回归进行融合,以提供每个视频帧0-100 范围内的单个输出分数,其中 100 的质量与参考视频相同。然后使用算术平均值在整个视频序列上临时汇集这些分数,以提供整体差分平均意见分数(DMOS)。

由于训练源代码(“VMAF Development Kit”,VDK)的公开可用性,可以根据不同的视频数据集和特征对融合方法进行重新训练和评估。

抗噪信噪比(AN-SNR) 在早期版本的 VMAF 中用作质量指标,但随后被放弃。 [9]

表现[编辑]

与主观评分相比,早期版本的 VMAF 在四个数据集中的三个数据集上的预测准确性已被证明优于其他图像和视频质量指标,例如SSIMPSNR -HVS 和 VQM-VFD。 [4] 在另一篇论文中也对其性能进行了分析,发现 VMAF 在视频数据集上的性能并不优于 SSIM 和 MS-SSIM。[10] 2017 年, 来自RealNetworks的的工程师报告称,网飞的性能论文具有良好的可重复性。[11]

软件[编辑]

C语言Python编写的参考实现(“VMAF 开发工具包,VDK”)根据 BSD+专利许可条款作为自由软件发布 。[12]其源代码和其他材料可在GitHub上获得。[5]

参见[编辑]

参考文献[编辑]

  1. ^ Liu, Tsung-Jung; Lin, Joe Yuchieh; Lin, Weisi; Kuo, C.-C. Jay. Visual quality assessment: recent developments, coding applications and future trends. APSIPA Transactions on Signal and Information Processing. 2013, 2. ISSN 2048-7703. doi:10.1017/atsip.2013.5可免费查阅. 
  2. ^ Lin, Joe Yuchieh; Liu, T. J.; Wu, E. C. H.; Kuo, C. C. J. A fusion-based video quality assessment (FVQA) index. Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2014 Asia-Pacific. December 2014: 1–5. ISBN 978-6-1636-1823-8. S2CID 7742774. doi:10.1109/apsipa.2014.7041705. 
  3. ^ Lin, Joe Yuchieh; Wu, Chi-Hao; Ioannis, Katsavounidis; Li, Zhi; Aaron, Anne; Kuo, C.-C. Jay. EVQA: An ensemble-learning-based video quality assessment index. Multimedia & Expo Workshops (ICMEW), 2015 IEEE International Conference on. June 2015: 1–5. ISBN 978-1-4799-7079-7. S2CID 6996075. doi:10.1109/ICMEW.2015.7169760. 
  4. ^ 4.0 4.1 Blog, Netflix Technology. Toward A Practical Perceptual Video Quality Metric. Netflix TechBlog. 2016-06-06 [2017-07-15]. (原始内容存档于2019-12-04). 
  5. ^ 5.0 5.1 vmaf: Perceptual video quality assessment based on multi-method fusion, Netflix, Inc., 2017-07-14 [2017-07-15], (原始内容存档于2022-07-13) 
  6. ^ 72nd Annual Technology & Engineering Emmy® Awards Recipients – The Emmys. theemmys.tv. [2021-02-08]. (原始内容存档于2022-05-19) (美国英语). 
  7. ^ PATRON, Julien. Technologie : l'Université de Nantes récompensée d'un Emmy Award !. UNNEWS. [2021-02-08]. (原始内容存档于2021-06-17) (法语). 
  8. ^ Li, S.; Zhang, F.; Ma, L.; Ngan, K. N. Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments. IEEE Transactions on Multimedia. October 2011, 13 (5): 935–949. ISSN 1520-9210. S2CID 8618041. doi:10.1109/tmm.2011.2152382. 
  9. ^ Zhili, Henry. Removal of AN-SNR. Github. [2022-01-24]. (原始内容存档于2022-05-07). 
  10. ^ Bampis, Christos G.; Bovik, Alan C. Learning to Predict Streaming Video QoE: Distortions, Rebuffering and Memory. 2017-03-02. arXiv:1703.00633可免费查阅 [cs.MM]. 
  11. ^ Rassool, Reza. VMAF reproducibility: Validating a perceptual practical video quality metric (PDF). 2017 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB). 2017: 1–2 [2017-11-30]. ISBN 978-1-5090-4937-0. S2CID 5449498. doi:10.1109/BMSB.2017.7986143. (原始内容存档 (PDF)于2022-05-19). 
  12. ^ 存档副本. [2022-01-24]. (原始内容存档于2022-07-16).