Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites

要約

大規模言語モデル (LLM) は、自然言語処理 (NLP) タスクにおいて顕著なパフォーマンスを示しています。
画像データに対する人間の多様な命令を理解して実行するために、命令調整されたラージ ビジョン言語モデル (LVLM) が導入されています。
ただし、LVLM はさまざまな種類の物体幻覚に悩まされる場合があります。
それにもかかわらず、LVLM は、粗粒度の物体幻覚 (つまり、入力画像に存在しない生成された物体) に対してのみ評価されます。
画像内に存在しないきめ細かいオブジェクトの属性や動作は依然として生成される可能性がありますが、現在の評価方法では測定されません。
したがって、この論文では、LVLM のきめの細かい幻覚を軽減することに焦点を当てます。
私たちは \textit{ReCaption} という 2 つのコンポーネントで構成されるフレームワークを提案します。ChatGPT を使用したキャプションの書き換えと、書き換えられたキャプションに対する命令調整された LVLM の微調整です。
また、\textit{Fine-Grained Object Hallucination Rating} (\textit{FGHE}) という名前の、きめの細かいプローブベースの評価方法も提案します。
私たちの実験結果は、ReCaption がさまざまな LVLM オプションでのきめの細かいオブジェクトの幻覚を効果的に軽減し、テキスト生成の品質を向上させることを示しています。
コードは https://github.com/Anonymousanoy/FOHE にあります。

要約(オリジナル)

Large language models (LLMs) have shown remarkable performance in natural language processing (NLP) tasks. To comprehend and execute diverse human instructions over image data, instruction-tuned large vision-language models (LVLMs) have been introduced. However, LVLMs may suffer from different types of object hallucinations. Nevertheless, LVLMs are evaluated for coarse-grained object hallucinations only (i.e., generated objects non-existent in the input image). The fine-grained object attributes and behaviors non-existent in the image may still be generated but not measured by the current evaluation methods. In this paper, we thus focus on reducing fine-grained hallucinations of LVLMs. We propose \textit{ReCaption}, a framework that consists of two components: rewriting captions using ChatGPT and fine-tuning the instruction-tuned LVLMs on the rewritten captions. We also propose a fine-grained probing-based evaluation method named \textit{Fine-Grained Object Hallucination Evaluation} (\textit{FGHE}). Our experiment results demonstrate that ReCaption effectively reduces fine-grained object hallucination for different LVLM options and improves their text generation quality. The code can be found at https://github.com/Anonymousanoy/FOHE.

arxiv情報

著者 Lei Wang,Jiabang He,Shenshen Li,Ning Liu,Ee-Peng Lim
発行日 2023-12-04 07:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク