Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

要約

3D AIGC の最近の進歩により、テキストや画像から 3D オブジェクトを直接作成できることが期待され、アニメーションや製品設計の大幅なコスト削減が実現します。
ただし、3D アセットの詳細な編集とカスタマイズは長年の課題のままです。
具体的には、3D 生成方法には、2D 画像作成方法と同じくらい正確に、細かく詳細な指示に従う能力がありません。
3D AIGC を通じておもちゃを入手できるが、望ましくないアクセサリーや装飾品が付いていると想像してください。
この課題に取り組むために、編集可能な両面画像からカスタマイズされた 3D アセットを迅速に作成する Tailor3D と呼ばれる新しいパイプラインを提案します。
私たちは、オブジェクトをローカルに変更したり、全体的なスタイル転送を実行したりするテーラーの能力をエミュレートすることを目的としています。
複数のビューから 3D アセットを作成する場合とは異なり、両面イメージを使用すると、個々のビューを編集するときに発生する重複領域での競合が解消されます。
具体的には、正面図の編集から始まり、多視点拡散によってオブジェクトの背面図を生成します。
その後、背面図の編集に進みます。
最後に、仕立て屋が衣服の表と裏を縫い合わせるのと同じように、表と裏の 3D フィーチャーをシームレスに縫い合わせる両面 LRM が提案されています。
両面 LRM は、正面図と背面図の間の不完全な一貫性を修正し、編集機能を強化し、メモリの負担を軽減しながら、LoRA Triplane Transformer を使用してそれらを統合された 3D 表現にシームレスに統合します。
実験結果は、3D 生成塗りつぶしやスタイル転送など、さまざまな 3D 生成および編集タスクにわたる Tailor3D の有効性を示しています。
3D アセットを編集するためのユーザーフレンドリーで効率的なソリューションを提供し、各編集ステップはわずか数秒で完了します。

要約(オリジナル)

Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor’s ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D’s effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete.

arxiv情報

著者 Zhangyang Qi,Yunhan Yang,Mengchen Zhang,Long Xing,Xiaoyang Wu,Tong Wu,Dahua Lin,Xihui Liu,Jiaqi Wang,Hengshuang Zhao
発行日 2024-07-08 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク