JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers

要約

RGBと深さのジョイント分布をモデル化する拡散トランスであるジョイントディットを提示します。
最先端の拡散トランスの前に建築上の利点と優れた画像を活用することにより、ジョイントディットは高忠実度の画像を生成するだけでなく、幾何学的にもっともらしい深さの深さマップを生成します。
この固体関節分布モデリングは、私たちが提案する2つのシンプルで効果的な手法、つまり各モダリティのノイズレベルと不均衡なタイムステップサンプリング戦略に依存する適応スケジューリングの重みを通じて達成されます。
これらの手法を使用すると、各モダリティのすべてのノイズレベルでモデルをトレーニングし、ジョイントディットが各ブランチのタイムステップを単純に制御することにより、共同生成、深度推定、深さ条件の画像生成など、さまざまな組み合わせ生成タスクを自然に処理できるようにします。
ジョイントディットは、優れた関節生成のパフォーマンスを示しています。
さらに、深さの推定と深さ条件の画像生成で同等の結果を達成し、ジョイント分布モデリングが条件付き生成の交換可能な代替品として機能することを示唆しています。
プロジェクトページは、https://byungki-k.github.io/jointdit/で入手できます。

要約(オリジナル)

We present JointDiT, a diffusion transformer that models the joint distribution of RGB and depth. By leveraging the architectural benefit and outstanding image prior of the state-of-the-art diffusion transformer, JointDiT not only generates high-fidelity images but also produces geometrically plausible and accurate depth maps. This solid joint distribution modeling is achieved through two simple yet effective techniques that we propose, i.e., adaptive scheduling weights, which depend on the noise levels of each modality, and the unbalanced timestep sampling strategy. With these techniques, we train our model across all noise levels for each modality, enabling JointDiT to naturally handle various combinatorial generation tasks, including joint generation, depth estimation, and depth-conditioned image generation by simply controlling the timestep of each branch. JointDiT demonstrates outstanding joint generation performance. Furthermore, it achieves comparable results in depth estimation and depth-conditioned image generation, suggesting that joint distribution modeling can serve as a replaceable alternative to conditional generation. The project page is available at https://byungki-k.github.io/JointDiT/.

arxiv情報

著者 Kwon Byung-Ki,Qi Dai,Lee Hyoseok,Chong Luo,Tae-Hyun Oh
発行日 2025-05-01 12:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク