要約
大規模視覚言語モデル(Large Vision-Language Models: LVLM)は、幅広いタスクで顕著な能力を発揮する一方で、入力画像とクエリのペアが与えられたときに、モデルがもっともらしいが正しくない答えを生成してしまう幻覚現象に悩まされている。この幻覚現象は、英語以外の言語で画像を問い合わせた場合にさらに深刻になるが、LVLMの幻覚を軽減する既存の手法は、英語のシナリオしか考慮していない。本論文では、LVLMにおけるこの重要な多言語幻覚を軽減する最初の試みを行う。徹底的な実験分析により、LVLMにおける多言語幻覚は、多言語能力の欠陥または不十分なマルチモーダル能力から生じうるシステム的問題であることを発見した。このため、高リソース言語と低リソース言語の両方において幻覚に対する耐性を向上させることを目的として、LVLMのための2段階の多言語幻覚除去(MHR)フレームワークを提案する。多言語リソースの複雑な手作業によるアノテーションに頼るのではなく、LVLM固有の能力を十分に活用し、各画像クエリ入力に対して複数の応答を生成し、各言語の幻覚を認識するペアを特定する、新しいクロスリンガルアライメント手法を提案する。これらのデータペアは、最終的にLVLMに幻覚を感じさせない応答を優先するよう促す直接選好最適化に用いられる。実験結果は、我々のMHRがLVLMの幻覚生成を大幅に削減することを示す。特に、我々の拡張多言語POPEベンチマークにおいて、我々のフレームワークは13の異なる言語間で平均19.0%の精度向上を実現した。我々のコードとモデルの重みはhttps://github.com/ssmisya/MHR。
要約(オリジナル)
While Large Vision-Language Models (LVLMs) have exhibited remarkable capabilities across a wide range of tasks, they suffer from hallucination problems, where models generate plausible yet incorrect answers given the input image-query pair. This hallucination phenomenon is even more severe when querying the image in non-English languages, while existing methods for mitigating hallucinations in LVLMs only consider the English scenarios. In this paper, we make the first attempt to mitigate this important multilingual hallucination in LVLMs. With thorough experiment analysis, we found that multilingual hallucination in LVLMs is a systemic problem that could arise from deficiencies in multilingual capabilities or inadequate multimodal abilities. To this end, we propose a two-stage Multilingual Hallucination Removal (MHR) framework for LVLMs, aiming to improve resistance to hallucination for both high-resource and low-resource languages. Instead of relying on the intricate manual annotations of multilingual resources, we fully leverage the inherent capabilities of the LVLM and propose a novel cross-lingual alignment method, which generates multiple responses for each image-query input and then identifies the hallucination-aware pairs for each language. These data pairs are finally used for direct preference optimization to prompt the LVLMs to favor non-hallucinating responses. Experimental results show that our MHR achieves a substantial reduction in hallucination generation for LVLMs. Notably, on our extended multilingual POPE benchmark, our framework delivers an average increase of 19.0% in accuracy across 13 different languages. Our code and model weights are available at https://github.com/ssmisya/MHR
arxiv情報
著者 | Xiaoye Qu,Mingyang Song,Wei Wei,Jianfeng Dong,Yu Cheng |
発行日 | 2024-08-01 13:34:35+00:00 |
arxivサイト | arxiv_id(pdf) |