Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

要約

テキストから 3D へのタスクの最近の進歩では、微調整されたテキストから画像への拡散モデルを利用してマルチビュー画像を生成し、その後 NeRF 再構成が行われます。
しかし、既存の教師あり微調整 (SFT) 拡散モデルは依然としてマルチビューの不一致と、その結果生じる NeRF アーティファクトに悩まされています。
SFT を使用してトレーニングを長くすると一貫性が向上しますが、分布の変化も生じ、多様性と現実的な詳細が低下します。
私たちは、マルチビュー拡散モデルの SFT は LLM アライメント パイプラインの命令微調整段階に似ており、RL 微調整 (RLFT) 手法の恩恵を受けることができると主張します。
基本的に、RLFT 手法は、独自の出力を使用して SFT データ分布を超えてモデルを最適化し、分布のシフトを効果的に軽減します。
この目的を達成するために、マルチビュー拡散モデルの一貫性を向上させるために、マルチビュー再構成一貫性 (MRC) メトリックと組み合わせた RLFT 手法である Carve3D を導入します。
一連の多視点画像の MRC を計算するには、それらの画像を、同じ視点で再構成された NeRF の対応するレンダリングと比較します。
制御された不整合レベルの下で実施された広範な実験により、MRC の堅牢性を検証します。
基本の RLFT アルゴリズムを強化して、トレーニング プロセスを安定させ、分布のシフトを軽減し、スケーリング則を特定します。
定性的および定量的な実験とユーザー調査を通じて、Carve3D の改善されたマルチビューの一貫性、その結果得られる優れた NeRF 再構成品質、およびより長い SFT と比較した最小の分布シフトを実証します。
プロジェクトのウェブページ: https://desaixie.github.io/carve-3d。

要約(オリジナル)

Recent advancements in the text-to-3D task leverage finetuned text-to-image diffusion models to generate multi-view images, followed by NeRF reconstruction. Yet, existing supervised finetuned (SFT) diffusion models still suffer from multi-view inconsistency and the resulting NeRF artifacts. Although training longer with SFT improves consistency, it also causes distribution shift, which reduces diversity and realistic details. We argue that the SFT of multi-view diffusion models resembles the instruction finetuning stage of the LLM alignment pipeline and can benefit from RL finetuning (RLFT) methods. Essentially, RLFT methods optimize models beyond their SFT data distribution by using their own outputs, effectively mitigating distribution shift. To this end, we introduce Carve3D, a RLFT method coupled with the Multi-view Reconstruction Consistency (MRC) metric, to improve the consistency of multi-view diffusion models. To compute MRC on a set of multi-view images, we compare them with their corresponding renderings of the reconstructed NeRF at the same viewpoints. We validate the robustness of MRC with extensive experiments conducted under controlled inconsistency levels. We enhance the base RLFT algorithm to stabilize the training process, reduce distribution shift, and identify scaling laws. Through qualitative and quantitative experiments, along with a user study, we demonstrate Carve3D’s improved multi-view consistency, the resulting superior NeRF reconstruction quality, and minimal distribution shift compared to longer SFT. Project webpage: https://desaixie.github.io/carve-3d.

arxiv情報

著者 Desai Xie,Jiahao Li,Hao Tan,Xin Sun,Zhixin Shu,Yi Zhou,Sai Bi,Sören Pirk,Arie E. Kaufman
発行日 2023-12-21 16:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク