Woodpecker: Hallucination Correction for Multimodal Large Language Models

要約

幻覚とは、急速に進化するマルチモーダル大規模言語モデル (MLLM) に影を落とす大きな影であり、生成されたテキストが画像の内容と一致しない現象を指します。
幻覚を軽減するために、既存の研究では主に、特定のデータを使用してモデルを再トレーニングする必要がある命令調整方法に頼っています。
このペーパーでは、Woodpecker という名前のトレーニング不要のメソッドを導入することで、別の道を切り開きます。
キツツキが木を癒すように、生成されたテキストから幻覚を見つけ出し、修正します。
具体的には、Woodpecker は、キーコンセプトの抽出、質問の定式化、視覚的な知識の検証、視覚的な主張の生成、幻覚の修正の 5 つの段階で構成されます。
事後救済方式で実装された Woodpecker は、5 つのステージの中間出力にアクセスすることで解釈可能でありながら、さまざまな MLLM に簡単に対応できます。
私たちはウッドペッカーを定量的および定性的に評価し、この新しいパラダイムの大きな可能性を示します。
POPE ベンチマークでは、私たちの手法はベースライン MiniGPT-4/mPLUG-Owl と比較して精度が 30.66%/24.33% 向上しました。
ソースコードは https://github.com/BradyFU/Woodpecker で公開されています。

要約(オリジナル)

Hallucination is a big shadow hanging over the rapidly evolving Multimodal Large Language Models (MLLMs), referring to the phenomenon that the generated text is inconsistent with the image content. In order to mitigate hallucinations, existing studies mainly resort to an instruction-tuning manner that requires retraining the models with specific data. In this paper, we pave a different way, introducing a training-free method named Woodpecker. Like a woodpecker heals trees, it picks out and corrects hallucinations from the generated text. Concretely, Woodpecker consists of five stages: key concept extraction, question formulation, visual knowledge validation, visual claim generation, and hallucination correction. Implemented in a post-remedy manner, Woodpecker can easily serve different MLLMs, while being interpretable by accessing intermediate outputs of the five stages. We evaluate Woodpecker both quantitatively and qualitatively and show the huge potential of this new paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released at https://github.com/BradyFU/Woodpecker.

arxiv情報

著者 Shukang Yin,Chaoyou Fu,Sirui Zhao,Tong Xu,Hao Wang,Dianbo Sui,Yunhang Shen,Ke Li,Xing Sun,Enhong Chen
発行日 2023-10-24 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク