要約
マルチモーダル大規模言語モデル(MLLM)は、視覚入力に基づく応答を生成することに優れている。しかし、MLLMはしばしば事前学習コーパスに類似した応答を生成するバイアスに悩まされ、視覚情報の重要性が覆い隠されてしまう。我々はこのバイアスを事前学習統計量に対する「選好」として扱い、モデルの視覚入力に対する根拠付けを妨げる。この問題を軽減するために、我々は、モデル自身からブートストラップされたネガティブな応答を含むデータセットを用いてプリファレンス学習を行う、ブートストラッププリファレンス最適化(BPO)を提案する。具体的には、以下の2つの戦略を提案する:1)歪んだ画像入力をMLLMに利用し、学習前のバイアスを含む応答を引き出す。2)テキストベースのLLMを活用し、誤ったが共通の要素を元の応答に明示的に注入する。これらの望ましくない応答は、データセットから元の注釈付き応答と対にされ、嗜好データセットを構築し、その後、嗜好学習を実行するために利用される。我々のアプローチは、事前に訓練されたLLMのバイアスを効果的に抑制し、視覚的入力の根拠を強化することを可能にする。広範な実験により、複数のベンチマークにおける性能の大幅な向上が実証され、マルチモーダル会話システムの最先端が進展している。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) excel in generating responses based on visual inputs. However, they often suffer from a bias towards generating responses similar to their pretraining corpus, overshadowing the importance of visual information. We treat this bias as a ‘preference’ for pretraining statistics, which hinders the model’s grounding in visual input. To mitigate this issue, we propose Bootstrapped Preference Optimization (BPO), which conducts preference learning with datasets containing negative responses bootstrapped from the model itself. Specifically, we propose the following two strategies: 1) using distorted image inputs to the MLLM for eliciting responses that contain signified pretraining bias; 2) leveraging text-based LLM to explicitly inject erroneous but common elements into the original response. Those undesirable responses are paired with original annotated responses from the datasets to construct the preference dataset, which is subsequently utilized to perform preference learning. Our approach effectively suppresses pretrained LLM bias, enabling enhanced grounding in visual inputs. Extensive experimentation demonstrates significant performance improvements across multiple benchmarks, advancing the state-of-the-art in multimodal conversational systems.
arxiv情報
| 著者 | Renjie Pi,Tianyang Han,Wei Xiong,Jipeng Zhang,Runtao Liu,Rui Pan,Tong Zhang |
| 発行日 | 2024-04-03 15:22:23+00:00 |
| arxivサイト | arxiv_id(pdf) |