TC-PDM: Temporally Consistent Patch Diffusion Models for Infrared-to-Visible Video Translation

要約

赤外線イメージングは​​、物体の温度を捕捉することで、変化する照明条件に対する回復力を提供します。
しかし、いくつかのシナリオでは、日中の目に見える画像と比較して視覚的な詳細が欠如しているため、人間と機械の解釈にとって大きな課題となっています。
この論文では、赤外線から可視ビデオへの変換のための、時間的一貫性のあるパッチ拡散モデル (TC-DPM) と呼ばれる新しい拡散方法を提案します。
パッチ拡散モデルを拡張した私たちの方法は、2 つの主要なコンポーネントで構成されています。
まず、基礎モデルの強力な表現を活用して、セマンティックに基づいたノイズ除去を提案します。
したがって、私たちの方法は、生成された可視画像の意味構造を忠実に保存します。
次に、ノイズ除去軌道をガイドし、連続するフレーム間の時間的一貫性を確保するための新しい時間ブレンディング モジュールを提案します。
実験によると、TC-PDM は最先端の方法よりも、赤外線から可視ビデオへの変換の FVD で 35.3%、昼夜の物体検出の AP50 で 6.1% 優れています。
私たちのコードは https://github.com/dzungdoan6/tc-pdm で公開されています。

要約(オリジナル)

Infrared imaging offers resilience against changing lighting conditions by capturing object temperatures. Yet, in few scenarios, its lack of visual details compared to daytime visible images, poses a significant challenge for human and machine interpretation. This paper proposes a novel diffusion method, dubbed Temporally Consistent Patch Diffusion Models (TC-DPM), for infrared-to-visible video translation. Our method, extending the Patch Diffusion Model, consists of two key components. Firstly, we propose a semantic-guided denoising, leveraging the strong representations of foundational models. As such, our method faithfully preserves the semantic structure of generated visible images. Secondly, we propose a novel temporal blending module to guide the denoising trajectory, ensuring the temporal consistency between consecutive frames. Experiment shows that TC-PDM outperforms state-of-the-art methods by 35.3% in FVD for infrared-to-visible video translation and by 6.1% in AP50 for day-to-night object detection. Our code is publicly available at https://github.com/dzungdoan6/tc-pdm

arxiv情報

著者 Anh-Dzung Doan,Vu Minh Hieu Phan,Surabhi Gupta,Markus Wagner,Tat-Jun Chin,Ian Reid
発行日 2024-08-26 12:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク