要約
既存のテキストから3Dへのテキストと3Dへの画像間モデルは、多くの場合、複数のオブジェクトと複雑な相互作用を含む複雑なシーンと格闘しています。
最近のいくつかの試みでは、このような構成シナリオが調査されていますが、レイアウト全体を最適化する広範なプロセスが必要です。
これらの課題を克服するために、このペーパーでは、単一の画像からの構成3Dシーン/オブジェクトの再構築のためのシンプルで効果的なフレームワークであるこの論文では、フラッシュ彫刻家を提案します。
Flashの中心に彫刻家は分割戦略があり、それは、個々のインスタンスの外観、回転、スケール、翻訳の取り扱いなど、構成シーンの再構成を一連のサブタスクに切り離します。
具体的には、回転のために、翻訳のために、両方の世界の最善の世界(効率性と精度)をもたらす粗から洗練されたスキームを導入します。
広範な実験は、フラッシュ彫刻家が既存の組成3Dメソッドよりも少なくとも3倍のスピードアップを達成し、組成3D再構成パフォーマンスで新しいベンチマークを設定することを示しています。
コードはhttps://github.com/yujiahu1109/flash-sculptorで入手できます。
要約(オリジナル)
Existing text-to-3D and image-to-3D models often struggle with complex scenes involving multiple objects and intricate interactions. Although some recent attempts have explored such compositional scenarios, they still require an extensive process of optimizing the entire layout, which is highly cumbersome if not infeasible at all. To overcome these challenges, we propose Flash Sculptor in this paper, a simple yet effective framework for compositional 3D scene/object reconstruction from a single image. At the heart of Flash Sculptor lies a divide-and-conquer strategy, which decouples compositional scene reconstruction into a sequence of sub-tasks, including handling the appearance, rotation, scale, and translation of each individual instance. Specifically, for rotation, we introduce a coarse-to-fine scheme that brings the best of both worlds–efficiency and accuracy–while for translation, we develop an outlier-removal-based algorithm that ensures robust and precise parameters in a single step, without any iterative optimization. Extensive experiments demonstrate that Flash Sculptor achieves at least a 3 times speedup over existing compositional 3D methods, while setting new benchmarks in compositional 3D reconstruction performance. Codes are available at https://github.com/YujiaHu1109/Flash-Sculptor.
arxiv情報
著者 | Yujia Hu,Songhua Liu,Xingyi Yang,Xinchao Wang |
発行日 | 2025-04-08 16:20:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google