Binary Diffusion Probabilistic Model

要約

バイナリ データ表現に最適化された新しい生成モデルであるバイナリ拡散確率モデル (BDPM) を紹介します。
ノイズ除去拡散確率モデル (DDPM) は、画像の合成や復元などのタスクで顕著な成功を収めていますが、従来の DDPM はトレーニングのために連続データ表現と平均二乗誤差 (MSE) 損失に依存しており、離散的または非連続的なデータには最適ではない可能性があるガウス ノイズ モデルを適用しています。
バイナリデータ構造。
BDPM は、画像をビットプレーンに分解し、バイナリ クロスエントロピー損失を使用してトレーニングされたノイズ除去モデルを使用して XOR ベースのノイズ変換を採用することで、この問題に対処します。
このアプローチにより、正確なノイズ制御と計算効率の高い推論が可能になり、計算コストが大幅に削減され、モデルの収束が向上します。
画像の超解像度、修復、ブラインド画像復元などの画像復元タスクで評価すると、BDPM は FFHQ、CelebA、および CelebA-HQ データセットに対する最先端の手法よりも優れたパフォーマンスを発揮します。
特に、BDPM は最適な結果を得るために必要な推論ステップが従来の DDPM モデルより少なく、推論効率が向上しています。

要約(オリジナル)

We introduce the Binary Diffusion Probabilistic Model (BDPM), a novel generative model optimized for binary data representations. While denoising diffusion probabilistic models (DDPMs) have demonstrated notable success in tasks like image synthesis and restoration, traditional DDPMs rely on continuous data representations and mean squared error (MSE) loss for training, applying Gaussian noise models that may not be optimal for discrete or binary data structures. BDPM addresses this by decomposing images into bitplanes and employing XOR-based noise transformations, with a denoising model trained using binary cross-entropy loss. This approach enables precise noise control and computationally efficient inference, significantly lowering computational costs and improving model convergence. When evaluated on image restoration tasks such as image super-resolution, inpainting, and blind image restoration, BDPM outperforms state-of-the-art methods on the FFHQ, CelebA, and CelebA-HQ datasets. Notably, BDPM requires fewer inference steps than traditional DDPM models to reach optimal results, showcasing enhanced inference efficiency.

arxiv情報

著者 Vitaliy Kinakh,Slava Voloshynovskiy
発行日 2025-01-23 18:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク