要約
AIGC画像はさまざまな分野で普及していますが、アーティファクトや不自然なテクスチャなどの質の高い問題に頻繁に苦しんでいます。
専門モデルは、欠陥領域のヒートマップを予測することを目的としていますが、2つの主要な課題に直面しています。(1)説明可能性の欠如、微妙な欠陥の理由と分析を提供できないこと、(2)一般化と論理的推論を活用できない、一般化が不十分です。
マルチモーダル大手言語モデル(MLLMS)は、より良い理解と推論を約束しますが、独自の課題に直面しています。(1)細かい詳細をキャプチャする際の制限により、きめ細かい欠陥の局在化の難しさ、および(2)正確なヒートマップ生成に必要なピクセルごとの出力を提供する際の制約。
これらの課題に対処するために、HEIE:新しいMLLMベースの階層的説明可能な画像不信心性評価者を提案します。
COT駆動の説明可能なTrinity Evaluatorを紹介します。これは、ヒートマップ、スコア、および説明出力を統合し、COTを使用して複雑なタスクを分解し、難易度を高め、解釈可能性を高めるサブタスクに分解します。
当社の適応階層的な不機嫌性マッパーは、LLMSの高レベルのマッパートークンを使用して低レベルの画像機能を相乗的に相乗し、不確実性に基づく適応トークンアプローチを通じて、局所的な階層ヒートマップ予測を正確に可能にします。
さらに、AIGC画像の解釈可能な不機嫌性評価を促進するように設計された新しいデータセット:expl-aigi-valを提案します。
私たちの方法は、広範な実験を通じて最先端のパフォーマンスを示しています。
私たちのプロジェクトはhttps://yfthu.github.io/heie/にあります。
要約(オリジナル)
AIGC images are prevalent across various fields, yet they frequently suffer from quality issues like artifacts and unnatural textures. Specialized models aim to predict defect region heatmaps but face two primary challenges: (1) lack of explainability, failing to provide reasons and analyses for subtle defects, and (2) inability to leverage common sense and logical reasoning, leading to poor generalization. Multimodal large language models (MLLMs) promise better comprehension and reasoning but face their own challenges: (1) difficulty in fine-grained defect localization due to the limitations in capturing tiny details, and (2) constraints in providing pixel-wise outputs necessary for precise heatmap generation. To address these challenges, we propose HEIE: a novel MLLM-Based Hierarchical Explainable Image Implausibility Evaluator. We introduce the CoT-Driven Explainable Trinity Evaluator, which integrates heatmaps, scores, and explanation outputs, using CoT to decompose complex tasks into subtasks of increasing difficulty and enhance interpretability. Our Adaptive Hierarchical Implausibility Mapper synergizes low-level image features with high-level mapper tokens from LLMs, enabling precise local-to-global hierarchical heatmap predictions through an uncertainty-based adaptive token approach. Moreover, we propose a new dataset: Expl-AIGI-Eval, designed to facilitate interpretable implausibility evaluation of AIGC images. Our method demonstrates state-of-the-art performance through extensive experiments. Our project is at https://yfthu.github.io/HEIE/.
arxiv情報
著者 | Fan Yang,Ru Zhen,Jianing Wang,Yanhao Zhang,Haoxiang Chen,Haonan Lu,Sicheng Zhao,Guiguang Ding |
発行日 | 2025-05-30 15:15:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google