要約
マルチモーダルの大規模な言語モデルの急速な発展により、視覚的な認識と理解において顕著な進歩がもたらされ、いくつかのタスクを単一の視覚的な質問をするフレームワークに統合しました。
ただし、これらのモデルは幻覚を起こしやすく、人工知能システムとしての信頼性を制限しています。
この問題は自然言語処理と画像キャプションで広く研究されていますが、特に画質評価タスクのコンテキストでは、低レベルの視覚的知覚と理解(HLPU)の幻覚の調査が不足しています。
これらの幻覚は、モデル内の明確な自己認識がないことから生じると考えています。
この問題に対処するために、最初にHLPU命令データベースを紹介します。これは、低レベルの視覚タスクの幻覚に特に焦点を当てた最初の命令データベースです。
このデータベースには約200kの質問回答ペアが含まれており、それぞれが異なる種類の命令をカバーしている4つのサブセットで構成されています。
その後、画像機能、顕著な領域機能、品質機能を利用して、低レベルの視覚タスクでモデルの知覚と理解能力を向上させる自己認識の故障排除(SAFEQA)モデルを提案します。
さらに、モデルの知識境界に対する認識を高め、それによって幻覚の発生率を軽減するために、自己認識の好みの最適化(ESA-PO)フレームワークの強化を提案します。
最後に、低レベルの視覚タスクに関する包括的な実験を実施し、結果は、提案された方法がこれらのタスクのモデルの自己認識を大幅に高め、幻覚を減らすことを実証します。
特に、提案された方法は、提案されたモデルの精度と自己認識の両方を改善し、さまざまな評価メトリックの観点から密集モデルを上回ることです。
要約(オリジナル)
The rapid development of multimodal large language models has resulted in remarkable advancements in visual perception and understanding, consolidating several tasks into a single visual question-answering framework. However, these models are prone to hallucinations, which limit their reliability as artificial intelligence systems. While this issue is extensively researched in natural language processing and image captioning, there remains a lack of investigation of hallucinations in Low-level Visual Perception and Understanding (HLPU), especially in the context of image quality assessment tasks. We consider that these hallucinations arise from an absence of clear self-awareness within the models. To address this issue, we first introduce the HLPU instruction database, the first instruction database specifically focused on hallucinations in low-level vision tasks. This database contains approximately 200K question-answer pairs and comprises four subsets, each covering different types of instructions. Subsequently, we propose the Self-Awareness Failure Elimination (SAFEQA) model, which utilizes image features, salient region features and quality features to improve the perception and comprehension abilities of the model in low-level vision tasks. Furthermore, we propose the Enhancing Self-Awareness Preference Optimization (ESA-PO) framework to increase the model’s awareness of knowledge boundaries, thereby mitigating the incidence of hallucination. Finally, we conduct comprehensive experiments on low-level vision tasks, with the results demonstrating that our proposed method significantly enhances self-awareness of the model in these tasks and reduces hallucinations. Notably, our proposed method improves both accuracy and self-awareness of the proposed model and outperforms close-source models in terms of various evaluation metrics.
arxiv情報
著者 | Yinan Sun,Xiongkuo Min,Zicheng Zhang,Yixuan Gao,Yuqin Cao,Guangtao Zhai |
発行日 | 2025-03-27 02:04:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google