要約
ピクセルレベルのビデオ理解には、空間次元と時間次元の両方で 3 次元データを効果的に統合して、連続フレームから正確かつ安定した意味情報を学習する必要があります。
ただし、VSPW データセットの既存の高度なモデルでは、時空間関係が完全にモデル化されていません。
このペーパーでは、既存のモデルに基づいたマスクされたビデオ整合性 (MVC) を導入する、PVUW コンテスト向けのソリューションを紹介します。
MVC は、ランダム パッチが保留されるマスクされたフレームの予測間の一貫性を強制します。
モデルは、画像のコンテキストとビデオの前後のフレーム間の関係を通じて、マスクされた部分のセグメンテーション結果を学習する必要があります。
さらに、テスト時の拡張、モデルの集約、およびマルチモーダルなモデルベースの後処理方法を採用しました。
私たちのアプローチは、VSPW データセットで 67.27% の mIoU パフォーマンスを達成し、PVUW2024 チャレンジ VSS トラックで 2 位にランクされました。
要約(オリジナル)
Pixel-level Video Understanding requires effectively integrating three-dimensional data in both spatial and temporal dimensions to learn accurate and stable semantic information from continuous frames. However, existing advanced models on the VSPW dataset have not fully modeled spatiotemporal relationships. In this paper, we present our solution for the PVUW competition, where we introduce masked video consistency (MVC) based on existing models. MVC enforces the consistency between predictions of masked frames where random patches are withheld. The model needs to learn the segmentation results of the masked parts through the context of images and the relationship between preceding and succeeding frames of the video. Additionally, we employed test-time augmentation, model aggeregation and a multimodal model-based post-processing method. Our approach achieves 67.27% mIoU performance on the VSPW dataset, ranking 2nd place in the PVUW2024 challenge VSS track.
arxiv情報
著者 | Chen Liang,Qiang Guo,Chongkai Yu,Chengjing Wu,Ting Liu,Luoqi Liu |
発行日 | 2024-06-07 14:41:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google