要約
1 つの画像から編集可能な動的 3D モデルとビデオの生成は、単一画像から 3D 表現または画像の 3D 再構成への研究領域における新しい方向性と変化です。
ガウス スプラッティングは、元のニューラル ラディアンス フィールドと比較して、暗黙的な 3D 再構成においてその利点が実証されています。
技術と原理の急速な発展に伴い、人々は安定拡散モデルを使用して、テキスト命令を含むターゲットモデルを生成しようとしました。
しかし、通常の暗黙的機械学習手法を使用すると、正確なモーションやアクションの制御を取得するのが難しく、さらに、長いコンテンツやセマンティックな連続 3D ビデオを生成することも困難です。
この問題に対処するために、私たちは OneTo3D を提案します。これは、1 つの画像を使用して編集可能な 3D モデルを生成し、目的のセマンティックで連続した時間無制限の 3D ビデオを生成する方法と理論です。
通常の基本的なガウス スプラッティング モデルを使用して 1 つの画像から 3D モデルを生成しました。これにより、必要なビデオ メモリとコンピュータの計算能力が少なくなります。
続いて、オブジェクトアーマチュアの自動生成および自己適応型バインディングメカニズムを設計しました。
私たちが提案した再編集可能なモーションとアクションの分析および制御アルゴリズムと組み合わせることで、3D モデルの正確なモーションとアクション制御の構築、および安定したセマンティック連続時間無制限 3D の生成の分野で、SOTA プロジェクトよりも優れたパフォーマンスを達成できます。
ビデオと入力テキストの指示。
ここでは詳細な実装方法と理論分析を分析します。
相対的な比較と結論が示されます。
プロジェクトのコードはオープンソースです。
要約(オリジナル)
One image to editable dynamic 3D model and video generation is novel direction and change in the research area of single image to 3D representation or 3D reconstruction of image. Gaussian Splatting has demonstrated its advantages in implicit 3D reconstruction, compared with the original Neural Radiance Fields. As the rapid development of technologies and principles, people tried to used the Stable Diffusion models to generate targeted models with text instructions. However, using the normal implicit machine learning methods is hard to gain the precise motions and actions control, further more, it is difficult to generate a long content and semantic continuous 3D video. To address this issue, we propose the OneTo3D, a method and theory to used one single image to generate the editable 3D model and generate the targeted semantic continuous time-unlimited 3D video. We used a normal basic Gaussian Splatting model to generate the 3D model from a single image, which requires less volume of video memory and computer calculation ability. Subsequently, we designed an automatic generation and self-adaptive binding mechanism for the object armature. Combined with the re-editable motions and actions analyzing and controlling algorithm we proposed, we can achieve a better performance than the SOTA projects in the area of building the 3D model precise motions and actions control, and generating a stable semantic continuous time-unlimited 3D video with the input text instructions. Here we will analyze the detailed implementation methods and theories analyses. Relative comparisons and conclusions will be presented. The project code is open source.
arxiv情報
著者 | Jinwei Lin |
発行日 | 2024-05-10 15:44:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google