要約
大規模言語モデルの最近の進歩は、ビデオ大規模マルチモーダル モデル (VLMM) の開発に影響を与えています。
VLMM に対する以前のアプローチには、命令調整されたデータセットを使用した教師あり微調整 (SFT)、LLM とビジュアル エンコーダーの統合、および追加の学習可能なモジュールの追加が含まれていました。
ビデオとテキストのマルチモーダル調整は、主にテキストのみのデータと比較してマルチモーダルな指示調整データの量と品質が不足しているため、依然として課題が残っています。
私たちは、AI フィードバックによる強化学習 (RLAIF) と呼ばれる、マルチモーダル AI システムを使用して自身を監視する新しい調整戦略を提案します。これは、自己選好フィードバックを提供して自身を洗練し、ビデオとテキストのモダリティの調整を容易にします。
具体的には、ビデオコンテンツの理解を深めるために、嗜好フィードバックの生成中にコンテキストとしてビデオの詳細な説明を提供することにより、コンテキストを認識した報酬モデリングを提案します。
さまざまなビデオ ベンチマークにわたってパフォーマンスの向上を実証する当社のマルチモーダル RLAIF アプローチである VLM-RLAIF は、SFT モデルを含む既存のアプローチを上回ります。
私たちは、この分野でのさらなる研究を促進するために、コード、モデル、データセットをオープンソース化することに取り組んでいます。
要約(オリジナル)
Recent advancements in large language models have influenced the development of video large multimodal models (VLMMs). The previous approaches for VLMMs involved Supervised Fine-Tuning (SFT) with instruction-tuned datasets, integrating LLM with visual encoders, and adding additional learnable modules. Video and text multimodal alignment remains challenging, primarily due to the deficient volume and quality of multimodal instruction-tune data compared to text-only data. We present a novel alignment strategy that employs multimodal AI system to oversee itself called Reinforcement Learning from AI Feedback (RLAIF), providing self-preference feedback to refine itself and facilitating the alignment of video and text modalities. In specific, we propose context-aware reward modeling by providing detailed video descriptions as context during the generation of preference feedback in order to enrich the understanding of video content. Demonstrating enhanced performance across diverse video benchmarks, our multimodal RLAIF approach, VLM-RLAIF, outperforms existing approaches, including the SFT model. We commit to open-sourcing our code, models, and datasets to foster further research in this area.
arxiv情報
著者 | Daechul Ahn,Yura Choi,Youngjae Yu,Dongyeop Kang,Jonghyun Choi |
発行日 | 2024-02-16 13:21:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google