要約
マルチモーダル大規模言語モデル (MLLM) は、特定のデータセットを微調整する命令を活用して、さまざまな視覚的な質問応答および推論タスクで目覚ましい進歩を遂げました。
また、人間が注釈を付けた嗜好データから学習して、推論能力を強化し、幻覚を軽減することもできます。
ほとんどの嗜好データはモデル自体から生成されます。
ただし、既存の方法では高品質の重要なラベルが必要であり、コストが高く、人によるモデルや GPT-4V などの独自のモデルに依存しています。
この研究では、5k 画像のみを経済的に使用して自己生成された優先データによって MLLM を位置合わせする、Critical Observation (EACO) による MLLM の位置合わせの強化を提案します。
私たちのアプローチは、Critic と呼ばれる重要な評価モデルをトレーニングするために、スコアリング評価命令の調整データセットを収集および調整することから始まります。
この評論家は、複数の次元にわたってモデルの応答を観察し、洗練された Direct Preference Optimization (DPO) チューニングのために優先出力と非優先出力を選択します。
モデルのパフォーマンスをさらに向上させるために、プリファレンス調整後に追加の教師付き微調整ステージを採用します。
EACO は、HallusionBench で全体の幻覚を 65.6% 軽減し、MME-Cognition で推論能力を 21.8% 向上させます。
EACO は、複数のベンチマークにわたって LLaVA-v1.6-Mistral-7B と比較して 8.5% の向上を達成しました。
注目すべきことに、EACO はオープンソース MLLM における潜在的な重要な能力も示しており、EACO が MLLM の能力を向上させる実行可能な手段であることを示しています。
要約(オリジナル)
Multimodal large language models (MLLMs) have achieved remarkable progress on various visual question answering and reasoning tasks leveraging instruction fine-tuning specific datasets. They can also learn from preference data annotated by human to enhance their reasoning ability and mitigate hallucinations. Most of preference data is generated from the model itself. However, existing methods require high-quality critical labels, which are costly and rely on human or proprietary models like GPT-4V. In this work, we propose Enhancing Alignment in MLLMs via Critical Observation (EACO), which aligns MLLMs by self-generated preference data using only 5k images economically. Our approach begins with collecting and refining a Scoring Evaluation Instruction-tuning dataset to train a critical evaluation model, termed the Critic. This Critic observes model responses across multiple dimensions, selecting preferred and non-preferred outputs for refined Direct Preference Optimization (DPO) tuning. To further enhance model performance, we employ an additional supervised fine-tuning stage after preference tuning. EACO reduces the overall hallucinations by 65.6% on HallusionBench and improves the reasoning ability by 21.8% on MME-Cognition. EACO achieves an 8.5% improvement over LLaVA-v1.6-Mistral-7B across multiple benchmarks. Remarkably, EACO also shows the potential critical ability in open-source MLLMs, demonstrating that EACO is a viable path to boost the competence of MLLMs.
arxiv情報
著者 | Yongxin Wang,Meng Cao,Haokun Lin,Mingfei Han,Liang Ma,Jin Jiang,Yuhao Cheng,Xiaodan Liang |
発行日 | 2024-12-06 09:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google