Distilling Vision-Language Models on Millions of Videos

要約

視覚言語モデルの最近の進歩は、豊富な画像テキスト データに大きく起因しています。
私たちはこの成功をビデオ言語モデルでも再現することを目指していますが、人間が厳選したビデオ テキスト データが十分に入手できません。
したがって、合成された指導データを使用した強力な画像言語ベースラインからビデオ言語モデルを微調整することに頼っています。
結果として得られるビデオ言語モデルは、数百万ものビデオに自動ラベル付けを行い、高品質のキャプションを生成するために使用されます。
適応されたビデオ言語モデルが、幅広いビデオ言語ベンチマークで良好にパフォーマンスすることを示します。
たとえば、これはオープンエンド型 NExT-QA における過去最高の結果を 2.8% 上回っています。
さらに、私たちのモデルは、これまでに見たことのないビデオの詳細な説明を生成し、既存の方法よりも優れたテキストによる監視を提供します。
実験の結果、これらの自動生成されたキャプションで対照的にトレーニングされたビデオ言語デュアル エンコーダー モデルは、視覚言語モデルも活用する最も強力なベースラインより 3.8% 優れていることがわかりました。
当社の最良のモデルは、MSR-VTT ゼロショット テキストからビデオへの取得において最先端の手法を 6% 上回っています。

要約(オリジナル)

The recent advance in vision-language models is largely attributed to the abundance of image-text data. We aim to replicate this success for video-language models, but there simply is not enough human-curated video-text data available. We thus resort to fine-tuning a video-language model from a strong image-language baseline with synthesized instructional data. The resulting video-language model is then used to auto-label millions of videos to generate high-quality captions. We show the adapted video-language model performs well on a wide range of video-language benchmarks. For instance, it surpasses the best prior result on open-ended NExT-QA by 2.8%. Besides, our model generates detailed descriptions for previously unseen videos, which provide better textual supervision than existing methods. Experiments show that a video-language dual-encoder model contrastively trained on these auto-generated captions is 3.8% better than the strongest baseline that also leverages vision-language models. Our best model outperforms state-of-the-art methods on MSR-VTT zero-shot text-to-video retrieval by 6%.

arxiv情報

著者 Yue Zhao,Long Zhao,Xingyi Zhou,Jialin Wu,Chun-Te Chu,Hui Miao,Florian Schroff,Hartwig Adam,Ting Liu,Boqing Gong,Philipp Krähenbühl,Liangzhe Yuan
発行日 2024-01-11 18:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク