要約
視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習する際に、拡散ベースのテキストからイメージ(T2I)モデルなどの最新の生成モデルに大きな課題をもたらします。
既存の方法には、解釈可能な根本的な本質的な概念を確実に抽出する体系的な方法がありません。
この課題に対処するために、T2Iモデルのみを使用して単一の画像から固有の概念を自動的に体系的に抽出する新しいフレームワークである、本質的な概念抽出の略で氷を提示します。
氷は2つの重要な段階で構成されています。
最初の段階では、ICEは、関連するテキストベースの概念と画像内の対応するマスクを特定するために、自動概念ローカリゼーションモジュールを考案します。
この重要な段階は、概念の初期化を合理化し、その後の分析のための正確なガイダンスを提供します。
第2段階は、識別された各マスクをより深く掘り下げ、オブジェクトレベルの概念を内因性の概念と一般的な概念に分解します。
この分解により、視覚要素のより詳細で解釈可能な故障が可能になります。
私たちのフレームワークは、単一の画像からの本質的な概念抽出に関する優れたパフォーマンスを監視していない方法で示しています。
プロジェクトページ:https://visual-ai.github.io/ice
要約(オリジナル)
The inherent ambiguity in defining visual concepts poses significant challenges for modern generative models, such as the diffusion-based Text-to-Image (T2I) models, in accurately learning concepts from a single image. Existing methods lack a systematic way to reliably extract the interpretable underlying intrinsic concepts. To address this challenge, we present ICE, short for Intrinsic Concept Extraction, a novel framework that exclusively utilizes a T2I model to automatically and systematically extract intrinsic concepts from a single image. ICE consists of two pivotal stages. In the first stage, ICE devises an automatic concept localization module to pinpoint relevant text-based concepts and their corresponding masks within the image. This critical stage streamlines concept initialization and provides precise guidance for subsequent analysis. The second stage delves deeper into each identified mask, decomposing the object-level concepts into intrinsic concepts and general concepts. This decomposition allows for a more granular and interpretable breakdown of visual elements. Our framework demonstrates superior performance on intrinsic concept extraction from a single image in an unsupervised manner. Project page: https://visual-ai.github.io/ice
arxiv情報
著者 | Fernando Julio Cendra,Kai Han |
発行日 | 2025-03-25 17:58:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google