LSTM-based Video Quality Prediction Accounting for Temporal Distortions in Videoconferencing Calls

要約

VMAF などの現在の最先端のビデオ品質モデルは、劣化したビデオをその参照ビデオと比較することにより、優れた予測結果を提供します。
ただし、ビデオ会議通話中に発生する一時的な歪み (フレームのフリーズやスキップなど) は考慮されていません。
このホワイト ペーパーでは、クラウドソーシングによってラベル付けされた主観的な品質評価を使用して LSTM をトレーニングすることにより、このような歪みを自動的にモデル化するためのデータ駆動型のアプローチを紹介します。
ビデオは、83 の異なるネットワーク条件でのライブ ビデオ会議通話から収集されました。
ソース ビデオのマーカーとして QR コードを適用して、整列参照を作成し、整列ベクトルに基づいて時間的特徴を計算しました。
これらの機能を VMAF コア機能と共に使用すると、提案されたモデルは検証セットで 0.99 の PCC を達成します。
さらに、私たちのモデルはフレームごとの品質を出力し、ビデオ品質の低下の原因について詳細な洞察を提供します。
VCM モデルとデータセットは、https://github.com/microsoft/Video_Call_MOS でオープンソース化されています。

要約(オリジナル)

Current state-of-the-art video quality models, such as VMAF, give excellent prediction results by comparing the degraded video with its reference video. However, they do not consider temporal distortions (e.g., frame freezes or skips) that occur during videoconferencing calls. In this paper, we present a data-driven approach for modeling such distortions automatically by training an LSTM with subjective quality ratings labeled via crowdsourcing. The videos were collected from live videoconferencing calls in 83 different network conditions. We applied QR codes as markers on the source videos to create aligned references and compute temporal features based on the alignment vectors. Using these features together with VMAF core features, our proposed model achieves a PCC of 0.99 on the validation set. Furthermore, our model outputs per-frame quality that gives detailed insight into the cause of video quality impairments. The VCM model and dataset are open-sourced at https://github.com/microsoft/Video_Call_MOS.

arxiv情報

著者 Gabriel Mittag,Babak Naderi,Vishak Gopal,Ross Cutler
発行日 2023-03-22 17:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.IV パーマリンク