Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚的な入力に基づいて応答を生成することに優れています。
しかし、彼らは多くの場合、事前学習コーパスと同様の応答を生成することへの偏見に悩まされており、視覚情報の重要性が影を落としています。
私たちはこのバイアスを事前トレーニング統計の「優先順位」として扱いますが、これはモデルの視覚的入力の基礎を妨げます。
この問題を軽減するために、モデル自体からブートストラップされた否定的な応答を含むデータセットを使用して嗜好学習を実行するブートストラップされた嗜好最適化 (BPO) を提案します。
具体的には、次の 2 つの戦略を提案します。 1) MLLM への歪んだ画像入力を使用して、有意な事前学習バイアスを含む応答を引き出す。
2) テキストベースの LLM を利用して、誤っているが共通の要素を元の応答に明示的に挿入します。
これらの望ましくない応答は、データセットからの元の注釈付き応答とペアになって嗜好データセットが構築され、その後、嗜好学習の実行に利用されます。
私たちのアプローチは、事前トレーニングされた LLM バイアスを効果的に抑制し、ビジュアル入力のグラウンディングを強化します。
広範な実験により、複数のベンチマークにわたって大幅なパフォーマンスの向上が実証され、マルチモーダル会話システムの最先端が進歩しました。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) excel in generating responses based on visual inputs. However, they often suffer from a bias towards generating responses similar to their pretraining corpus, overshadowing the importance of visual information. We treat this bias as a ‘preference’ for pretraining statistics, which hinders the model’s grounding in visual input. To mitigate this issue, we propose Bootstrapped Preference Optimization (BPO), which conducts preference learning with datasets containing negative responses bootstrapped from the model itself. Specifically, we propose the following two strategies: 1) using distorted image inputs to the MLLM for eliciting responses that contain signified pretraining bias; 2) leveraging text-based LLM to explicitly inject erroneous but common elements into the original response. Those undesirable responses are paired with original annotated responses from the datasets to construct the preference dataset, which is subsequently utilized to perform preference learning. Our approach effectively suppresses pretrained LLM bias, enabling enhanced grounding in visual inputs. Extensive experimentation demonstrates significant performance improvements across multiple benchmarks, advancing the state-of-the-art in multimodal conversational systems.

arxiv情報

著者 Renjie Pi,Tianyang Han,Wei Xiong,Jipeng Zhang,Runtao Liu,Rui Pan,Tong Zhang
発行日 2024-03-13 17:29:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク