Disentangling Visual Embeddings with Minimal Distributional Assumptions

要約

ディープ エンコーダーによって学習された埋め込み空間の理解と因数分解への関心が高まっています。
概念発見メソッドは、オブジェクトの形状や色などの解釈可能な潜在コンポーネントの埋め込み空間を検索し、それらを埋め込み空間内の個々の軸に解きほぐします。
しかし、視覚タスクに関しては、最新の絡み合い解消学習技術または独立成分分析 (ICA) の適用可能性は限られています。複雑な画像生成プロセスのモデルをトレーニングする必要があるか、成分分布に関する厳格な確率的独立性仮定が破られています。
実際には。
この作業では、分布の仮定やジェネレーターのトレーニングを行わずに、エンコーダー埋め込み空間内のコンポーネントを識別します。
代わりに、画像生成プロセスの機能的構成特性を利用します。
2 つの新しい事後コンポーネント発見方法を導出し、理論的な識別可能性の保証を証明します。
相関するコンポーネントと違反した機能的仮定を使用して、現実的な視覚的なもつれを解くタスクでそれらを研究します。
当社のアプローチは、300 以上の最先端のもつれ解消および成分分析モデルに対して優れたパフォーマンスを安定して維持します。

要約(オリジナル)

Interest in understanding and factorizing embedding spaces learned by deep encoders is growing. Concept discovery methods search the embedding spaces for interpretable latent components like object shape or color and disentangle them into individual axes in the embedding space. Yet, the applicability of modern disentanglement learning techniques or independent component analysis (ICA) is limited when it comes to vision tasks: They either require training a model of the complex image-generating process or their rigid stochastic independence assumptions on the component distribution are violated in practice. In this work, we identify components in encoder embedding spaces without distributional assumptions and without training a generator. Instead, we utilize functional compositionality properties of image-generating processes. We derive two novel post-hoc component discovery methods and prove theoretical identifiability guarantees. We study them in realistic visual disentanglement tasks with correlated components and violated functional assumptions. Our approaches stably maintain superior performance against 300+ state-of-the-art disentanglement and component analysis models.

arxiv情報

著者 Tobias Leemann,Michael Kirchhof,Yao Rong,Enkelejda Kasneci,Gjergji Kasneci
発行日 2022-10-28 11:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク