PASTA: Controllable Part-Aware Shape Generation with Autoregressive Transformers

要約

3D コンテンツ作成プロセスを自動化するツールに対する需要の高まりにより、忠実度の高い多様な 3D オブジェクトを生成できる深層生成モデルが大幅に進歩しました。
この論文では、高品質の 3D 形状を生成するための自己回帰変換アーキテクチャである PASTA を紹介します。
PASTA は 2 つの主要コンポーネントで構成されます。1 つは直方体プリミティブのシーケンスとしてオブジェクトを生成する自己回帰トランスフォーマー、もう 1 つは直方体のシーケンスを構成し、オブジェクトごとに高品質のメッシュを合成するトランスフォーマー デコーダーで実装されたブレンディング ネットワークです。
私たちのモデルは 2 つの段階でトレーニングされます。まず、注釈付きの直方体部分のみを監視として使用して自己回帰生成モデルをトレーニングします。次に、明示的な 3D 監視を使用して、防水メッシュの形式でブレンディング ネットワークをトレーニングします。
さまざまな ShapeNet オブジェクトの評価では、さまざまな入力 (ゼロから、部分オブジェクト、テキストや画像など) から形状生成を実行するモデルの機能と、
オブジェクトの境界。
さらに、私たちのモデルは 3D オブジェクトの基礎となるパーツベースの構造を考慮しているため、特定のパーツを選択し、このパーツの意味のあるバリエーションを含む形状を生成することができます。
私たちの実験で証明されたように、私たちのモデルは、既存のパーツベースおよび非パーツベースの方法よりも現実的で多様な 3D 形状を生成すると同時に、実装とトレーニングがより簡単です。

要約(オリジナル)

The increased demand for tools that automate the 3D content creation process led to tremendous progress in deep generative models that can generate diverse 3D objects of high fidelity. In this paper, we present PASTA, an autoregressive transformer architecture for generating high quality 3D shapes. PASTA comprises two main components: An autoregressive transformer that generates objects as a sequence of cuboidal primitives and a blending network, implemented with a transformer decoder that composes the sequences of cuboids and synthesizes high quality meshes for each object. Our model is trained in two stages: First we train our autoregressive generative model using only annotated cuboidal parts as supervision and next, we train our blending network using explicit 3D supervision, in the form of watertight meshes. Evaluations on various ShapeNet objects showcase the ability of our model to perform shape generation from diverse inputs \eg from scratch, from a partial object, from text and images, as well size-guided generation, by explicitly conditioning on a bounding box that defines the object’s boundaries. Moreover, as our model considers the underlying part-based structure of a 3D object, we are able to select a specific part and produce shapes with meaningful variations of this part. As evidenced by our experiments, our model generates 3D shapes that are both more realistic and diverse than existing part-based and non part-based methods, while at the same time is simpler to implement and train.

arxiv情報

著者 Songlin Li,Despoina Paschalidou,Leonidas Guibas
発行日 2024-07-18 16:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク