要約
マルチモーダル大規模言語モデル (MLLM) の動作を人間の好みに合わせることが、堅牢で信頼できる AI システムを開発するために重要です。
最近の試みでは、人間の専門家や強力な補助 AI システムを採用して、MLLM からの望ましい応答を決定したり、幻覚のない応答を直接書き換えたりするなど、より正確な好みのフィードバックを提供していますが、膨大なリソースのオーバーヘッドにより、フィードバック収集のスケーラビリティが損なわれています。
この研究では、モデル自体がトピック レベルで自身の幻覚を軽減するように導く自己修正アプローチである、トピック レベルの優先設定の上書き (TPO) を導入します。
TPO は、応答内の各トピックをモデル自体によって生成された最良または最悪の代替案に置き換える混乱のない戦略を通じて、より対照的なペアごとの好みのフィードバックを作成し、人間や独自のモデルの介入なしにフィードバックの品質を向上させます。
特に、実験結果は、提案された TPO が信頼性において最先端のパフォーマンスを達成し、物体の幻覚を 92%、全体の幻覚を 38% 大幅に軽減することを示しています。
コード、モデル、データセットは現在利用可能です。
要約(オリジナル)
Aligning the behaviors of Multimodal Large Language Models (MLLMs) with human preferences is crucial for developing robust and trustworthy AI systems. While recent attempts have employed human experts or powerful auxiliary AI systems to provide more accurate preference feedback, such as determining the preferable responses from MLLMs or directly rewriting hallucination-free responses, extensive resource overhead compromise the scalability of the feedback collection. In this work, we introduce Topic-level Preference Overwriting (TPO), a self-correctional approach that guide the model itself to mitigate its own hallucination at the topic level. Through a deconfounded strategy that replaces each topic within the response with the best or worst alternatives generated by the model itself, TPO creates more contrasting pairwise preference feedback, enhancing the feedback quality without human or proprietary model intervention. Notably, the experimental results demonstrate proposed TPO achieves state-of-the-art performance in trustworthiness, significantly reducing the object hallucinations by 92% and overall hallucinations by 38%. Code, model and dataset are available now.
arxiv情報
著者 | Lehan He,Zeren Chen,Zhelun Shi,Tianyu Yu,Jing Shao,Lu Sheng |
発行日 | 2024-12-09 13:04:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google