Understanding Alignment in Multimodal LLMs: A Comprehensive Study

要約

プリファレンスの調整は、大規模言語モデル (LLM) のパフォーマンスを向上させる上で重要なコンポーネントとなっていますが、マルチモーダル大規模言語モデル (MLLM) におけるその影響は、比較的十分に解明されていません。
言語モデルと同様に、画像理解タスクの MLLM は幻覚などの課題に直面します。
MLLM では、誤った事実を述べるだけでなく、画像の内容と一致しない反応を示すことによっても幻覚が発生することがあります。
MLLM の位置合わせの主な目的は、これらのモデルが応答を画像情報とより厳密に位置合わせするように促すことです。
最近、複数の研究で MLLM の優先データセットが導入され、直接優先最適化 (DPO) や近接ポリシー最適化 (PPO) などのさまざまな調整方法が検討されました。
ただし、データセット、基本モデルのタイプ、位置合わせ方法が異なるため、どの特定の要素がこれらの研究で報告されている改善に最も大きく貢献しているかは不明のままです。
この論文では、MLLM における嗜好の調整の各側面を個別に分析します。
まず、位置合わせアルゴリズムをオフライン (DPO など) とオンライン (オンライン DPO など) の 2 つのグループに分類し、オフラインとオンラインの方法を組み合わせることで、特定のシナリオでモデルのパフォーマンスを向上できることを示します。
私たちは、公開されているさまざまなマルチモーダル設定データセットをレビューし、その構築の詳細がモデルのパフォーマンスにどのような影響を与えるかを議論します。
これらの洞察に基づいて、追加のアノテーションも外部モデルも必要としない、バイアス駆動幻覚サンプリング (BDHS) と呼ばれるマルチモーダル嗜好データを作成する新しい方法を紹介し、以前に公開されたマルチモーダル モデルの調整作業に匹敵するパフォーマンスを達成できることを示します。
さまざまなベンチマーク。

要約(オリジナル)

Preference alignment has become a crucial component in enhancing the performance of Large Language Models (LLMs), yet its impact in Multimodal Large Language Models (MLLMs) remains comparatively underexplored. Similar to language models, MLLMs for image understanding tasks encounter challenges like hallucination. In MLLMs, hallucination can occur not only by stating incorrect facts but also by producing responses that are inconsistent with the image content. A primary objective of alignment for MLLMs is to encourage these models to align responses more closely with image information. Recently, multiple works have introduced preference datasets for MLLMs and examined different alignment methods, including Direct Preference Optimization (DPO) and Proximal Policy Optimization (PPO). However, due to variations in datasets, base model types, and alignment methods, it remains unclear which specific elements contribute most significantly to the reported improvements in these works. In this paper, we independently analyze each aspect of preference alignment in MLLMs. We start by categorizing the alignment algorithms into two groups, offline (such as DPO), and online (such as online-DPO), and show that combining offline and online methods can improve the performance of the model in certain scenarios. We review a variety of published multimodal preference datasets and discuss how the details of their construction impact model performance. Based on these insights, we introduce a novel way of creating multimodal preference data called Bias-Driven Hallucination Sampling (BDHS) that needs neither additional annotation nor external models, and show that it can achieve competitive performance to previously published alignment work for multimodal models across a range of benchmarks.

arxiv情報

著者 Elmira Amirloo,Jean-Philippe Fauconnier,Christoph Roesmann,Christian Kerl,Rinu Boney,Yusu Qian,Zirui Wang,Afshin Dehghan,Yinfei Yang,Zhe Gan,Peter Grasch
発行日 2024-07-02 17:55:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク