Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

要約

Large Vision Language Model (LVLM) のパフォーマンスは、トレーニング データセットのサイズと品質に依存します。
既存のビデオ命令チューニング データセットは、ビデオ キャプションを備えた大規模な言語モデルに質問と回答のペアを生成させることによって導出されているため、多様性に欠けており、そのためほとんどが説明的なものになっています。
一方、多様なラベルと監視を備えたラベル付きビデオ データセットが多数存在しますが、LVLM へのそれらの統合は簡単ではないことがわかりました。
ここでは、最初のビデオ セルフ トレーニング アプローチである拡張推論によるビデオ セルフ トレーニング (Video-STaR) を紹介します。
Video-STAR を使用すると、ビデオ命令の調整にラベル付きビデオ データセットを利用できます。
Video-STaR では、LVLM は命令生成と微調整の間を循環します。これにより、(I) 一般的なビデオの理解が向上し、(II) LVLM が既存の監視による新しい下流タスクに適応することがわかります。
生成中に、LVLM は回答を提案するように求められます。
その後、回答は元のビデオ ラベルを含むもののみにフィルタリングされ、生成されたデータセットで LVLM が再トレーニングされます。
正しいビデオ ラベルを含む生成された回答のみをトレーニングすることにより、Video-STaR はこれらの既存のビデオ ラベルをビデオ命令チューニングの弱い監視として利用します。
私たちの結果は、Video-STaR で強化された LVLM が、(I) 一般的なビデオ QA でパフォーマンスが向上し、TempCompass のパフォーマンスが 10% 向上し、(II) ダウンストリーム タスクで、Video-STaR によって Kinetics700-QA の精度が 20% 向上し、
FineDiving のアクション品質評価が 15% 向上しました。

要約(オリジナル)

The performance of Large Vision Language Models (LVLMs) is dependent on the size and quality of their training datasets. Existing video instruction tuning datasets lack diversity as they are derived by prompting large language models with video captions to generate question-answer pairs, and are therefore mostly descriptive. Meanwhile, many labeled video datasets with diverse labels and supervision exist – however, we find that their integration into LVLMs is non-trivial. Herein, we present Video Self-Training with augmented Reasoning (Video-STaR), the first video self-training approach. Video-STaR allows the utilization of any labeled video dataset for video instruction tuning. In Video-STaR, an LVLM cycles between instruction generation and finetuning, which we show (I) improves general video understanding and (II) adapts LVLMs to novel downstream tasks with existing supervision. During generation, an LVLM is prompted to propose an answer. The answers are then filtered only to those that contain the original video labels, and the LVLM is then re-trained on the generated dataset. By only training on generated answers that contain the correct video labels, Video-STaR utilizes these existing video labels as weak supervision for video instruction tuning. Our results demonstrate that Video-STaR-enhanced LVLMs exhibit improved performance in (I) general video QA, where TempCompass performance improved by 10%, and (II) on downstream tasks, where Video-STaR improved Kinetics700-QA accuracy by 20% and action quality assessment on FineDiving by 15%.

arxiv情報

著者 Orr Zohar,Xiaohan Wang,Yonatan Bitton,Idan Szpektor,Serena Yeung-Levy
発行日 2024-07-08 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク