要約
近年、生成言語モデルによる合成視覚命令により、視覚的な質問応答タスクにおいて妥当なテキスト生成パフォーマンスが実証されています。
しかし、生成言語モデルの幻覚には課題が残っています。つまり、生成された画像テキストデータには意図しないコンテンツが含まれます。
この論文では、範囲を画像コンテンツのみに限定する、視覚的幻覚除去命令を生成するための、CAP2QA と呼ばれる、新規でスケーラブルな方法を紹介します。
私たちの主な貢献は、画像に合わせた有益な QA データセット CAP2QA-COCO とそのスケーラブルなレシピの導入にあります。
実験では、視覚指示チューニングにより同じソースデータを共有する合成視覚指示データセットを比較し、一般的な視覚認識タスクを実行します。
これは、私たちの提案した方法が視覚認識能力と表現力を一貫して向上させながら、幻視を大幅に軽減することを示しています。
要約(オリジナル)
In recent years, synthetic visual instructions by generative language model have demonstrated plausible text generation performance on the visual question-answering tasks. However, challenges persist in the hallucination of generative language models, i.e., the generated image-text data contains unintended contents. This paper presents a novel and scalable method for generating visually dehallucinative instructions, dubbed CAP2QA, that constrains the scope to only image contents. Our key contributions lie in introducing image-aligned instructive QA dataset CAP2QA-COCO and its scalable recipe. In our experiments, we compare synthetic visual instruction datasets that share the same source data by visual instruction tuning and conduct general visual recognition tasks. It shows that our proposed method significantly reduces visual hallucination while consistently improving visual recognition ability and expressiveness.
arxiv情報
著者 | Sungguk Cha,Jusung Lee,Younghyun Lee,Cheoljong Yang |
発行日 | 2024-02-13 10:25:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google