Diffusion Counterfactual Generation with Semantic Abduction

要約

反事実的な画像生成は、アイデンティティの保存、知覚の質の維持、根本的な因果モデルへの忠実さの確保など、重要な課題を提示します。
既存の自動エンコードフレームワークは、因果制御のために操作できるセマンティックな潜在スペースを認めていますが、スケーラビリティと忠実度に苦しんでいます。
拡散モデルの進歩は、最先端の視覚的品質、人間に合った知覚、および表現学習能力を実証し、反事実的な画像編集を改善する機会を提供します。
ここでは、空間的、意味的、動的な誘ductionの概念を導入する一連の拡散ベースの因果メカニズムを提示します。
反事実的推論プロセスを介して画像を編集するために、真珠の因果関係のレンズを介してセマンティック表現を拡散モデルに統合する一般的なフレームワークを提案します。
私たちの知る限り、これは拡散反事実のための高レベルのセマンティックアイデンティティ保存を検討し、セマンティックコントロールが忠実な因果制御とアイデンティティの保存の間の原則的なトレードオフをどのように可能にするかを示す最初の作業です。

要約(オリジナル)

Counterfactual image generation presents significant challenges, including preserving identity, maintaining perceptual quality, and ensuring faithfulness to an underlying causal model. While existing auto-encoding frameworks admit semantic latent spaces which can be manipulated for causal control, they struggle with scalability and fidelity. Advancements in diffusion models present opportunities for improving counterfactual image editing, having demonstrated state-of-the-art visual quality, human-aligned perception and representation learning capabilities. Here, we present a suite of diffusion-based causal mechanisms, introducing the notions of spatial, semantic and dynamic abduction. We propose a general framework that integrates semantic representations into diffusion models through the lens of Pearlian causality to edit images via a counterfactual reasoning process. To our knowledge, this is the first work to consider high-level semantic identity preservation for diffusion counterfactuals and to demonstrate how semantic control enables principled trade-offs between faithful causal control and identity preservation.

arxiv情報

著者 Rajat Rasal,Avinash Kori,Fabio De Sousa Ribeiro,Tian Xia,Ben Glocker
発行日 2025-06-09 15:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク