Multi-modal preference alignment remedies regression of visual instruction tuning on language model

要約

運用環境では、マルチモーダル大規模言語モデル (MLLM) は、画像とテキストのモダリティを交換するマルチターン クエリをサポートすることが期待されています。
ただし、ビジュアル質問応答 (VQA) データセットでトレーニングされた現在の MLLM は、基礎となる言語モデルでトレーニングされた元のテキスト命令データセットの多様性と複雑さが VQA データセットに欠けているため、劣化に見舞われる可能性があります。
この困難な劣化に対処するために、まず軽量 (6k エントリ) の VQA 選好データセットを収集します。このデータセットには、回答が Gemini によって 5 つの品質メトリックについて詳細に注釈が付けられています。次に、標準の教師あり微調整、拒否サンプリング、直接選好最適化 (DPO) を調査します。
、SteerLM。
私たちの調査結果は、DPO を使用すると、言語モデルの命令追従能力を上回り、データ規模が小さいにもかかわらず、Vicuna の 6.57 や LLaVA の 5.99 と比較して、MT-Bench で 6.73 のスコアを達成できることを示しています。
このテキスト指導の習熟度の向上は、以前の RLHF アプローチと比較して、視覚的知識ベンチマークに対する調整負担を最小限に抑えながら、視覚的指導のパフォーマンスの向上 (MM-Vet で +4.9\%、LLaVA-Bench で +6\%) と相関しています。
結論として、MLLM のテキストと視覚的なパフォーマンスを調和させ、視覚的命令の調整後に言語能力を回復および強化する、小さなデータセットにきめの細かい注釈を備えた蒸留ベースのマルチモーダル アライメント モデルを提案します。

要約(オリジナル)

In production, multi-modal large language models (MLLMs) are expected to support multi-turn queries of interchanging image and text modalities. However, the current MLLMs trained with visual-question-answering (VQA) datasets could suffer from degradation, as VQA datasets lack the diversity and complexity of the original text instruction datasets which the underlying language model had been trained with. To address this challenging degradation, we first collect a lightweight (6k entries) VQA preference dataset where answers were annotated by Gemini for 5 quality metrics in a granular fashion, and investigate standard Supervised Fine-tuning, rejection sampling, Direct Preference Optimization (DPO), and SteerLM. Our findings indicate that the with DPO we are able to surpass instruction-following capabilities of the language model, achieving a 6.73 score on MT-Bench, compared to Vicuna’s 6.57 and LLaVA’s 5.99 despite small data scale. This enhancement in textual instruction proficiency correlates with boosted visual instruction performance (+4.9\% on MM-Vet, +6\% on LLaVA-Bench), with minimal alignment tax on visual knowledge benchmarks compared to previous RLHF approach. In conclusion, we propose a distillation-based multi-modal alignment model with fine-grained annotations on a small dataset that reconciles the textual and visual performance of MLLMs, restoring and boosting language capability after visual instruction tuning.

arxiv情報

著者 Shengzhi Li,Rongyu Lin,Shichao Pei
発行日 2024-02-16 18:42:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク