要約
この論文では、オブジェクトのスケルトンを利用して基礎となる拡散モデルをガイドする、単眼のオープンセットの新規ビュー合成 (NVS) のアプローチを紹介します。
事前トレーニングされた 2D 画像ジェネレーターを利用するベースラインに基づいて構築されるこのメソッドは、ボーン構造を持つアニメーション化されたオブジェクトを含む Objaverse データセットを利用します。
既存のレイコンディショニング正規化 (RCN) レイヤーに続いてスケルトン ガイド レイヤーを導入することで、私たちのアプローチはポーズの精度とマルチビューの一貫性を強化します。
スケルトン ガイド レイヤーは、生成モデルの詳細な構造情報を提供し、合成ビューの品質を向上させます。
実験結果は、私たちのスケルトンガイド手法が、Objaverse データセット内のさまざまなオブジェクト カテゴリにわたる一貫性と精度を大幅に向上させることを示しています。
私たちの手法は、明示的な 3D 表現に依存せずに、既存の最先端の NVS 技術を量的および定性的に上回ります。
要約(オリジナル)
In this paper, we present an approach for monocular open-set novel view synthesis (NVS) that leverages object skeletons to guide the underlying diffusion model. Building upon a baseline that utilizes a pre-trained 2D image generator, our method takes advantage of the Objaverse dataset, which includes animated objects with bone structures. By introducing a skeleton guide layer following the existing ray conditioning normalization (RCN) layer, our approach enhances pose accuracy and multi-view consistency. The skeleton guide layer provides detailed structural information for the generative model, improving the quality of synthesized views. Experimental results demonstrate that our skeleton-guided method significantly enhances consistency and accuracy across diverse object categories within the Objaverse dataset. Our method outperforms existing state-of-the-art NVS techniques both quantitatively and qualitatively, without relying on explicit 3D representations.
arxiv情報
著者 | Aron Fóthi,Bence Fazekas,Natabara Máté Gyöngyössy,Kristian Fenech |
発行日 | 2024-12-04 15:45:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google