Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

要約

Interactive 3Dシミュレーションオブジェクトは、AR/VR、アニメーション、ロボット工学、没入型エクスペリエンス、高度な自動化において重要です。
ただし、これらの明確なオブジェクトを作成するには、広範な人間の努力と専門知識が必要であり、より広範なアプリケーションを制限します。
この課題を克服するために、テキスト、画像、ビデオを含む多くの入力モダリティから多様な複雑なオブジェクトの明確化を自動化するシステムであるArticulate-Anythingを提示します。
Articulate-Anythingは、Vision-Language Models(VLMS)を活用して、標準の3Dシミュレータで使用するために相互作用可能なデジタルツインにコンパイルできるコードを生成します。
当社のシステムは、メッシュ検索メカニズムを介して既存の3Dアセットデータセットを活用し、オブジェクト、自己修正エラーを明確にして堅牢な結果を達成するためのソリューションを繰り返し提案、評価し、洗練するアクタークライティックシステムを介して活用します。
定性的評価は、豊富な接地入力を活用することにより、複雑で曖昧なオブジェクトアフォーダンスを明確にする能力を明確に示しています。
標準のパートネットモビリティデータセットに関する広範な定量的実験では、事前の作業を実質的に上回り、8.7-11.6%から75%に成功率を上げ、最先端のパフォーマンスのために新しいバーを設定します。
さらに、建物内のビデオ入力から3Dアセットを生成することにより、システムのユーティリティをさらに紹介します。これは、基本的な選択と場所を超えるシミュレーションで微調整された操作タスクのロボットポリシーをトレーニングするために使用されます。
これらのポリシーは、実際のロボットシステムに転送されます。

要約(オリジナル)

Interactive 3D simulated objects are crucial in AR/VR, animations, and robotics, driving immersive experiences and advanced automation. However, creating these articulated objects requires extensive human effort and expertise, limiting their broader applications. To overcome this challenge, we present Articulate-Anything, a system that automates the articulation of diverse, complex objects from many input modalities, including text, images, and videos. Articulate-Anything leverages vision-language models (VLMs) to generate code that can be compiled into an interactable digital twin for use in standard 3D simulators. Our system exploits existing 3D asset datasets via a mesh retrieval mechanism, along with an actor-critic system that iteratively proposes, evaluates, and refines solutions for articulating the objects, self-correcting errors to achieve a robust outcome. Qualitative evaluations demonstrate Articulate-Anything’s capability to articulate complex and even ambiguous object affordances by leveraging rich grounded inputs. In extensive quantitative experiments on the standard PartNet-Mobility dataset, Articulate-Anything substantially outperforms prior work, increasing the success rate from 8.7-11.6% to 75% and setting a new bar for state-of-the-art performance. We further showcase the utility of our system by generating 3D assets from in-the-wild video inputs, which are then used to train robotic policies for fine-grained manipulation tasks in simulation that go beyond basic pick and place. These policies are then transferred to a real robotic system.

arxiv情報

著者 Long Le,Jason Xie,William Liang,Hung-Ju Wang,Yue Yang,Yecheng Jason Ma,Kyle Vedder,Arjun Krishna,Dinesh Jayaraman,Eric Eaton
発行日 2025-02-06 18:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク