要約
大規模ビジョン言語モデル (LVLM) は、事前トレーニングされた大規模言語モデル (LLM) とビジョン モデルを命令チューニングを通じて統合することにより、大幅な進歩を遂げました。
これらの進歩にもかかわらず、LVLM はしばしば幻覚現象を示し、生成されたテキスト応答は言語的にはもっともらしいように見えますが、入力画像と矛盾し、画像とテキストのペア間の不整合を示します。
この不一致は、言語モデルと視覚表現の両方が高品質である場合でも、モデルが視覚入力よりもテキスト情報を優先する傾向があるために発生します。
既存の方法では、追加のモデルまたは人間による注釈を利用して嗜好データを厳選し、嗜好の最適化を通じてモダリティの調整を強化します。
これらのアプローチはターゲット LVLM の設定を効果的に反映しない可能性があるため、厳選された設定が簡単に区別できます。
私たちの研究では、Calibrated Self-Rewarding (CSR) アプローチを提案することでこれらの課題に対処しています。これにより、候補の応答を繰り返し生成し、各応答に対する報酬を評価し、微調整するための嗜好データを収集することで、モデルの自己改善が可能になります。
報酬モデリングでは、段階的な戦略を採用し、視覚的な制約を自己報酬プロセスに組み込んで、視覚的な入力をより重視します。
実証結果は、CSR が 10 のベンチマークとタスクにわたってパフォーマンスを向上させ、幻覚を軽減し、既存の方法と比較して 7.62% の大幅な改善を達成することを示しています。
私たちの経験的結果は、穏やかな仮定の下での厳密な理論分析によってさらに裏付けられ、自己報酬型パラダイムに視覚的制約を導入することの有効性が検証されています。
さらに、CSR は、さまざまなビジョン言語モデルとの互換性と、反復的な微調整を通じてパフォーマンスを段階的に向上させる能力を示しています。
データとコードは https://github.com/YiyangZhou/CSR で入手できます。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have made substantial progress by integrating pre-trained large language models (LLMs) and vision models through instruction tuning. Despite these advancements, LVLMs often exhibit the hallucination phenomenon, where generated text responses appear linguistically plausible but contradict the input image, indicating a misalignment between image and text pairs. This misalignment arises because the model tends to prioritize textual information over visual input, even when both the language model and visual representations are of high quality. Existing methods leverage additional models or human annotations to curate preference data and enhance modality alignment through preference optimization. These approaches may not effectively reflect the target LVLM’s preferences, making the curated preferences easily distinguishable. Our work addresses these challenges by proposing the Calibrated Self-Rewarding (CSR) approach, which enables the model to self-improve by iteratively generating candidate responses, evaluating the reward for each response, and curating preference data for fine-tuning. In the reward modeling, we employ a step-wise strategy and incorporate visual constraints into the self-rewarding process to place greater emphasis on visual input. Empirical results demonstrate that CSR enhances performance and reduces hallucinations across ten benchmarks and tasks, achieving substantial improvements over existing methods by 7.62%. Our empirical results are further supported by rigorous theoretical analysis, under mild assumptions, verifying the effectiveness of introducing visual constraints into the self-rewarding paradigm. Additionally, CSR shows compatibility with different vision-language models and the ability to incrementally improve performance through iterative fine-tuning. Our data and code are available at https://github.com/YiyangZhou/CSR.
arxiv情報
著者 | Yiyang Zhou,Zhiyuan Fan,Dongjie Cheng,Sihan Yang,Zhaorun Chen,Chenhang Cui,Xiyao Wang,Yun Li,Linjun Zhang,Huaxiu Yao |
発行日 | 2024-05-31 16:37:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google