Aligning Large Multi-Modal Model with Robust Instruction Tuning

要約

マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチモーダル モデル (LMM) では、関連する画像と人間の指示に関して一貫性のない記述が幻覚に現れる傾向があります。
この論文では、大規模ロバスト ビジュアル (LRV) 命令と呼ばれる、初めての大規模で多様なビジュアル命令チューニング データセットを紹介することで、この問題に対処します。
私たちのデータセットは、GPT4 によって生成された 120,000 個の視覚的指示で構成されており、自由形式の指示と回答を備えた 16 の視覚と言語のタスクをカバーしています。
主にポジティブな指示サンプルに焦点を当てた既存の研究とは異なり、より堅牢な視覚的指示の調整のために、ポジティブな指示とネガティブな指示の両方を含むように LRV 命令を設計します。
ネガティブ命令は、(i) 存在しない要素の操作と (ii) 存在する要素の操作という 2 つのセマンティック レベルで設計されています。
LMM によって生成される幻覚を効率的に測定するために、GPT4 支援視覚命令評価 (GAVIE) を提案します。これは、人間による注釈付きのグラウンドトゥルース回答を必要とせずに視覚命令の調整を評価する新しいアプローチであり、さまざまな命令形式に適応できます。
私たちは、LMM の幻覚を調査するために包括的な実験を行っています。
私たちの結果は、既存の LMM が否定的な命令、特に存在要素操作命令を与えられたときに重大な幻覚を示すことを示しています。
さらに、LRV 命令で MiniGPT4 を微調整することで、最先端の手法と比較して少ないトレーニング データを使用して、公開データセットのパフォーマンスを向上させながら幻覚を軽減することに成功しました。
さらに、トレーニング データ内の正のインスタンスと負のインスタンスのバランスの取れた比率により、より堅牢なモデルが得られることがわかりました。
私たちのプロジェクトのリンクは https://fuxiaoliu.github.io/LRV/ から入手できます。

要約(オリジナル)

Despite the promising progress in multi-modal tasks, current large multi-modal models (LMM) are prone to hallucinating inconsistent descriptions with respect to the associated image and human instructions. This paper addresses this issue by introducing the first large and diverse visual instruction tuning dataset, named Large-scale Robust Visual (LRV)-Instruction. Our dataset consists of 120k visual instructions generated by GPT4, covering 16 vision-and-language tasks with open-ended instructions and answers. Unlike existing studies that primarily focus on positive instruction samples, we design LRV-Instruction to include both positive and negative instructions for more robust visual instruction tuning. Our negative instructions are designed at two semantic levels: (i) Nonexistent Element Manipulation and (ii) Existent Element Manipulation. To efficiently measure the hallucination generated by LMMs, we propose GPT4-Assisted Visual Instruction Evaluation (GAVIE), a novel approach to evaluate visual instruction tuning without the need for human-annotated groundtruth answers and can adapt to diverse instruction formats. We conduct comprehensive experiments to investigate the hallucination of LMMs. Our results demonstrate that existing LMMs exhibit significant hallucination when presented with our negative instructions, particularly with Existent Element Manipulation instructions. Moreover, by finetuning MiniGPT4 on LRV-Instruction, we successfully mitigate hallucination while improving performance on public datasets using less training data compared to state-of-the-art methods. Additionally, we observed that a balanced ratio of positive and negative instances in the training data leads to a more robust model. Our project link is available at https://fuxiaoliu.github.io/LRV/.

arxiv情報

著者 Fuxiao Liu,Kevin Lin,Linjie Li,Jianfeng Wang,Yaser Yacoob,Lijuan Wang
発行日 2023-06-26 10:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM パーマリンク