要約
マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチモーダル モデル (LMM) では、関連する画像と人間の指示に関して一貫性のない記述が幻覚に現れる傾向があります。
この論文では、大規模ロバスト ビジュアル (LRV) 命令と呼ばれる、初めての大規模で多様なビジュアル命令チューニング データセットを紹介することで、この問題に対処します。
私たちのデータセットは、GPT4 によって生成された 400,000 個の視覚的指示で構成されており、自由形式の指示と回答を備えた 16 の視覚と言語のタスクをカバーしています。
主にポジティブな指示サンプルに焦点を当てた既存の研究とは異なり、より堅牢な視覚的指示の調整のために、ポジティブな指示とネガティブな指示の両方を含むように LRV 命令を設計します。
私たちの否定的な命令は、(i) 存在しないオブジェクトの操作、(ii) 存在するオブジェクトの操作、および (iii) 知識の操作の 3 つの意味論的レベルで設計されています。
LMM によって生成される幻覚を効率的に測定するために、人間の専門家のように視覚指示の調整を評価するための安定したアプローチである GPT4 支援視覚指示評価 (GAVIE) を提案します。
GAVIE は人間による注釈付きのグラウンドトゥルース回答を必要とせず、多様な指導形式に適応できます。
私たちは、LMM の幻覚を調査するために包括的な実験を行っています。
私たちの結果は、既存の LMM が否定的な命令、特に存在するオブジェクトと知識の操作命令を提示されたときに重大な幻覚を示すことを示しています。
さらに、LRV 命令で MiniGPT4 と mPLUG-Owl を微調整することで幻覚を軽減することに成功し、最先端の方法と比較していくつかの公開データセットのパフォーマンスを向上させました。
さらに、トレーニング データ内の正のインスタンスと負のインスタンスのバランスの取れた比率により、より堅牢なモデルが得られることがわかりました。
要約(オリジナル)
Despite the promising progress in multi-modal tasks, current large multi-modal models (LMMs) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset comprises 400k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at three semantic levels: (i) Nonexistent Object Manipulation, (ii) Existent Object Manipulation and (iii) Knowledge Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a stable approach to evaluate visual instruction tuning like human experts. GAVIE does not require human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate existing LMMs exhibit significant hallucinations when presented with our negative instructions, particularly Existent Object and Knowledge Manipulation instructions. Moreover, we successfully mitigate hallucination by finetuning MiniGPT4 and mPLUG-Owl on LRV-Instruction while improving performance on several public datasets compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model.
arxiv情報
著者 | Fuxiao Liu,Kevin Lin,Linjie Li,Jianfeng Wang,Yaser Yacoob,Lijuan Wang |
発行日 | 2023-09-29 16:02:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google