要約
画像翻訳方法は、赤外線および目に見えるモダリティの情報欠陥を緩和するための重要なアプローチを表し、モダリティ固有のデータセットの強化も促進します。
ただし、赤外線および可視画像翻訳の既存の方法は、一方向モダリティ翻訳を実現するか、双方向モダリティ翻訳のサイクルの一貫性に依存しているため、最適ではないパフォーマンスが発生する可能性があります。
この作業では、赤外線および可視モダリティの両方でデータ分布を同時にモデル化するためのクロスモダリティ翻訳拡散モデル(CMディフ)を提示します。
トレーニング中のガイダンスのために翻訳方向ラベルをクロスモダリティフィーチャコントロールと組み合わせることにより、この課題に対処します。
具体的には、2つのモダリティ間のマッピング関係の確立を、データ分布を学習し、モダリティの違いを理解するプロセスとして、新しい双方向拡散トレーニング(BDT)戦略を通じて達成されます。
さらに、生成された画像がターゲットモダリティのデータ分布に密接に準拠するようにするために、統計的制約推論(SCI)戦略を提案します。
実験結果は、最先端の方法よりもCMディフの優位性を示しており、デュアルモダリティデータセットを生成する可能性を強調しています。
要約(オリジナル)
The image translation method represents a crucial approach for mitigating information deficiencies in the infrared and visible modalities, while also facilitating the enhancement of modality-specific datasets. However, existing methods for infrared and visible image translation either achieve unidirectional modality translation or rely on cycle consistency for bidirectional modality translation, which may result in suboptimal performance. In this work, we present the cross-modality translation diffusion model (CM-Diff) for simultaneously modeling data distributions in both the infrared and visible modalities. We address this challenge by combining translation direction labels for guidance during training with cross-modality feature control. Specifically, we view the establishment of the mapping relationship between the two modalities as the process of learning data distributions and understanding modality differences, achieved through a novel Bidirectional Diffusion Training (BDT) strategy. Additionally, we propose a Statistical Constraint Inference (SCI) strategy to ensure the generated image closely adheres to the data distribution of the target modality. Experimental results demonstrate the superiority of our CM-Diff over state-of-the-art methods, highlighting its potential for generating dual-modality datasets.
arxiv情報
著者 | Bin Hu,Chenqiang Gao,Shurui Liu,Junjie Guo,Fang Chen,Fangcen Liu |
発行日 | 2025-03-12 16:25:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google