DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance

要約

正確で忠実な運転シーンの再構築には、包括的なシーン情報を条件付き入力として効果的に利用する必要があります。
既存の方法は、主に3Dバウンディングボックスと前景とバックグラウンドコントロール用のBEVロードマップに依存しています。これは、運転シーンの完全な複雑さをキャプチャできず、マルチモーダル情報を適切に統合します。
この作業では、複数のビューとビデオシーケンスにわたって運転シーンの生成を強化するために設計されたデュアルブランチ条件付き拡散モデルであるDualDiffを提示します。
具体的には、条件付き入力として占有レイシェイプサンプリング(OR)を導入し、両方の要素の生成を正確に制御するために、3D空間ジオメトリと並んでリッチな前景と背景のセマンティクスを提供します。
きめ細かい前景オブジェクト、特に複雑で遠いオブジェクトの合成を改善するために、前景を認識したマスク(FGM)の損失関数を除去することを提案します。
さらに、関連する情報を動的に優先し、ノイズを抑制し、より効果的なマルチモーダル融合を可能にするセマンティックフュージョンの注意(SFA)メカニズムを開発します。
最後に、高品質の画像からビデオへの生成を確保するために、生成されたビデオのグローバルな一貫性とセマンティックコヒーレンスを維持する報酬誘導拡散(RGD)フレームワークを導入します。
広範な実験は、DualDiffが複数のデータセットで最先端の(SOTA)パフォーマンスを達成することを示しています。
Nuscenesデータセットでは、DualDiffは最良のベースラインと比較してFIDスコアを4.09%削減します。
BEVセグメンテーションなどの下流のタスクでは、この方法は車両MIOUを4.50%、道路MIOUを1.70%改善しますが、BEV 3Dオブジェクト検出では、前景マップは1.46%増加します。
コードはhttps://github.com/yangzhaojason/dualdiffで利用可能になります。

要約(オリジナル)

Accurate and high-fidelity driving scene reconstruction demands the effective utilization of comprehensive scene information as conditional inputs. Existing methods predominantly rely on 3D bounding boxes and BEV road maps for foreground and background control, which fail to capture the full complexity of driving scenes and adequately integrate multimodal information. In this work, we present DualDiff, a dual-branch conditional diffusion model designed to enhance driving scene generation across multiple views and video sequences. Specifically, we introduce Occupancy Ray-shape Sampling (ORS) as a conditional input, offering rich foreground and background semantics alongside 3D spatial geometry to precisely control the generation of both elements. To improve the synthesis of fine-grained foreground objects, particularly complex and distant ones, we propose a Foreground-Aware Mask (FGM) denoising loss function. Additionally, we develop the Semantic Fusion Attention (SFA) mechanism to dynamically prioritize relevant information and suppress noise, enabling more effective multimodal fusion. Finally, to ensure high-quality image-to-video generation, we introduce the Reward-Guided Diffusion (RGD) framework, which maintains global consistency and semantic coherence in generated videos. Extensive experiments demonstrate that DualDiff achieves state-of-the-art (SOTA) performance across multiple datasets. On the NuScenes dataset, DualDiff reduces the FID score by 4.09% compared to the best baseline. In downstream tasks, such as BEV segmentation, our method improves vehicle mIoU by 4.50% and road mIoU by 1.70%, while in BEV 3D object detection, the foreground mAP increases by 1.46%. Code will be made available at https://github.com/yangzhaojason/DualDiff.

arxiv情報

著者 Zhao Yang,Zezhong Qian,Xiaofan Li,Weixiang Xu,Gongpeng Zhao,Ruohong Yu,Lingsi Zhu,Longjun Liu
発行日 2025-03-05 17:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク