要約
大型ビジョン言語モデル(VLMS)の出現により、視覚的モダリティを統合することにより、シングルモーダルの大手言語モデル(LLM)の範囲と機能が拡大し、さまざまな現実世界のシナリオで変換されるクロスモーダルアプリケーションを解き放ちました。
彼らの印象的なパフォーマンスにもかかわらず、VLMは、特にクロスモーダルの矛盾の形で、重要な幻覚を起こしやすいです。
LLMSの調整における人間のフィードバック(RLHF)からの強化学習の成功に基づいて、最近の進歩は、これらの問題を軽減するために慎重にキュレーションされたデータセットに直接優先最適化(DPO)を適用することに焦点を当てています。
しかし、そのようなアプローチは通常、視覚式信号をブルートフォースで導入し、アラインメントプロセスにおける視覚情報の重要な役割を無視します。
このホワイトペーパーでは、画像検索を活用してデュアルプレーファレンスデータセットを構築する新しいアライメントフレームワークであるReAlignを紹介し、テキストと視覚の両方の嗜好信号を効果的に組み込んでいます。
さらに、微調整中に追加の視覚選好目標を組み込んだ標準の直接優先最適化の拡張であるRDPOを紹介します。
私たちの実験結果は、再調整が以前の方法よりも効果的に幻覚を軽減するだけでなく、一般的な視覚的質問(VQA)タスクで大幅なパフォーマンスの向上をもたらすことを示しています。
さらに、幅広いVLMサイズとアーキテクチャにわたって再整合が堅牢性とスケーラビリティを維持することを示します。
この作業は、マルチモーダルLLMSを調整する際の重要な前進を表し、より信頼性が高く効果的なクロスモーダルアプリケーションへの道を開きます。
すべてのコードをhttps://github.com/taco-group/re-alignでリリースします。
要約(オリジナル)
The emergence of large Vision Language Models (VLMs) has broadened the scope and capabilities of single-modal Large Language Models (LLMs) by integrating visual modalities, thereby unlocking transformative cross-modal applications in a variety of real-world scenarios. Despite their impressive performance, VLMs are prone to significant hallucinations, particularly in the form of cross-modal inconsistencies. Building on the success of Reinforcement Learning from Human Feedback (RLHF) in aligning LLMs, recent advancements have focused on applying direct preference optimization (DPO) on carefully curated datasets to mitigate these issues. Yet, such approaches typically introduce preference signals in a brute-force manner, neglecting the crucial role of visual information in the alignment process. In this paper, we introduce Re-Align, a novel alignment framework that leverages image retrieval to construct a dual-preference dataset, effectively incorporating both textual and visual preference signals. We further introduce rDPO, an extension of the standard direct preference optimization that incorporates an additional visual preference objective during fine-tuning. Our experimental results demonstrate that Re-Align not only mitigates hallucinations more effectively than previous methods but also yields significant performance gains in general visual question-answering (VQA) tasks. Moreover, we show that Re-Align maintains robustness and scalability across a wide range of VLM sizes and architectures. This work represents a significant step forward in aligning multimodal LLMs, paving the way for more reliable and effective cross-modal applications. We release all the code in https://github.com/taco-group/Re-Align.
arxiv情報
著者 | Shuo Xing,Yuping Wang,Peiran Li,Ruizheng Bai,Yueqi Wang,Chengxuan Qian,Huaxiu Yao,Zhengzhong Tu |
発行日 | 2025-02-18 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google