One For All: Video Conversation is Feasible Without Video Instruction Tuning

要約

大規模言語モデル (LLM) の最近の進歩は、画像言語会話エージェントのさまざまな進歩に拍車をかけていますが、熟練したビデオベースの対話システムを構築する方法はまだ模索中です。
LLM とビジュアル バックボーンの規模が大きいことを考慮すると、効果的な時間モデリングを促進するために最小限の GPU メモリが残されます。これは、ビデオを理解し、フィードバックを提供するために重要です。
この目的を達成するために、我々は、画像言語の事前学習済みモデルをビデオ領域に拡張するための新しい方法である分岐時間アダプター (BT-Adapter) を提案します。
具体的には、BT アダプターは、バックボーンをフリーズしたまま調整される事前トレーニング済みビジュアル エンコーダーと並行して、プラグアンド使用の時間モデリング ブランチとして機能します。
BT アダプターは、一度事前トレーニングするだけで、このバージョンの CLIP を使用してすべての画像会話モデルにシームレスに統合でき、ビデオの指示を必要とせずにビデオ会話が可能になります。
さらに、BT アダプター用にカスタマイズされたトレーニング タスクを使用してブランチ内で独自の非対称トークン マスキング戦略を開発し、より迅速な収束とより良い結果を促進します。
BT-Adapter のおかげで、過剰な GPU コストをかけずに、既存のマルチモーダル対話モデルに強力なビデオ理解機能を強化することができます。
付加機能なしで、BT アダプターは、(1) 数千時間も少ない GPU 時間を使用して、さまざまなビデオ タスクで最先端のゼロショット結果を達成します。
(2) ビデオ命令のチューニングを行わなくても、現在のビデオ チャットボットよりもパフォーマンスが向上します。
(3) ビデオ命令チューニングを使用したビデオチャットの最先端の結果。以前の SOTA を大幅に上回りました。

要約(オリジナル)

The recent progress in Large Language Models (LLM) has spurred various advancements in image-language conversation agents, while how to build a proficient video-based dialogue system is still under exploration. Considering the extensive scale of LLM and visual backbone, minimal GPU memory is left for facilitating effective temporal modeling, which is crucial for comprehending and providing feedback on videos. To this end, we propose Branching Temporal Adapter (BT-Adapter), a novel method for extending image-language pretrained models into the video domain. Specifically, BT-Adapter serves as a plug-and-use temporal modeling branch alongside the pretrained visual encoder, which is tuned while keeping the backbone frozen. Just pretrained once, BT-Adapter can be seamlessly integrated into all image conversation models using this version of CLIP, enabling video conversations without the need for video instructions. Besides, we develop a unique asymmetric token masking strategy inside the branch with tailor-made training tasks for BT-Adapter, facilitating faster convergence and better results. Thanks to BT-Adapter, we are able to empower existing multimodal dialogue models with strong video understanding capabilities without incurring excessive GPU costs. Without bells and whistles, BT-Adapter achieves (1) state-of-the-art zero-shot results on various video tasks using thousands of fewer GPU hours. (2) better performance than current video chatbots without any video instruction tuning. (3) state-of-the-art results of video chatting using video instruction tuning, outperforming previous SOTAs by a large margin.

arxiv情報

著者 Ruyang Liu,Chen Li,Yixiao Ge,Ying Shan,Thomas H. Li,Ge Li
発行日 2023-09-27 16:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク