要約
Large Vision-Language Model (LVLM) システムは、優れた視覚言語推論機能を実証していますが、蔓延する深刻な幻覚の問題に悩まされており、ヘルスケアや自律システムなどの重要な領域に重大なリスクをもたらします。
幻覚を軽減するためのこれまでの取り組みにも関わらず、依然として問題は残っています。それは、視覚と言語の不整合による視覚障害であり、視覚処理能力のボトルネックとなっています。
この課題に対処するために、情報ボトルネック理論に基づいて、LVLM の幻覚を軽減するための相補的適応トークンレベル対照デコーディング (CATCH) を開発しました。
CATCH では、視覚情報分離のための相補的視覚分離 (CVD)、幻覚検出のための非視覚的スクリーニング (NVS)、幻覚軽減のための適応型トークンレベル対照復号化 (ATCD) が導入されています。
CATCH は、オープンエンドのシナリオにおいて、きめの細かい特徴の知覚の低下と累積的な幻覚を引き起こす視覚的欠陥に関連する問題に対処します。
特定のデータや事前知識を必要とせずに、さまざまな視覚的な質問応答タスクに適用でき、追加のトレーニングなしで新しいタスクに堅牢に一般化できるため、さまざまな困難なアプリケーションで LVLM を進化させる新たな可能性が開かれます。
要約(オリジナル)
Large Vision-Language Model (LVLM) systems have demonstrated impressive vision-language reasoning capabilities but suffer from pervasive and severe hallucination issues, posing significant risks in critical domains such as healthcare and autonomous systems. Despite previous efforts to mitigate hallucinations, a persistent issue remains: visual defect from vision-language misalignment, creating a bottleneck in visual processing capacity. To address this challenge, we develop Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs (CATCH), based on the Information Bottleneck theory. CATCH introduces Complementary Visual Decoupling (CVD) for visual information separation, Non-Visual Screening (NVS) for hallucination detection, and Adaptive Token-level Contrastive Decoding (ATCD) for hallucination mitigation. CATCH addresses issues related to visual defects that cause diminished fine-grained feature perception and cumulative hallucinations in open-ended scenarios. It is applicable to various visual question-answering tasks without requiring any specific data or prior knowledge, and generalizes robustly to new tasks without additional training, opening new possibilities for advancing LVLM in various challenging applications.
arxiv情報
著者 | Zhehan Kan,Ce Zhang,Zihan Liao,Yapeng Tian,Wenming Yang,Junyuan Xiao,Xu Li,Dongmei Jiang,Yaowei Wang,Qingmin Liao |
発行日 | 2024-11-19 18:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google