要約
コード生成を通じて多関節オブジェクトを再構築する新しいアプローチである Real2Code を紹介します。
オブジェクトを視覚的に観察した場合、まず画像セグメンテーション モデルと形状完成モデルを使用してその部品のジオメトリを再構築します。
次に、オブジェクトのパーツを指向性バウンディング ボックスで表し、これを微調整された大規模言語モデル (LLM) に入力して、関節の調音をコードとして予測します。
事前トレーニングされた視覚モデルと言語モデルを活用することで、私たちのアプローチは、関節部分の数に合わせてエレガントに拡張し、合成トレーニング データから非構造化環境における現実世界のオブジェクトまで一般化します。
実験結果は、Real2Code が再構築精度において以前の最先端技術を大幅に上回っており、トレーニング セット内のオブジェクトの構造的複雑さを超えて外挿する最初のアプローチであり、最大 10 個の多関節パーツでオブジェクトを再構築することを示しています。
Real2Code をステレオ再構成モデルと組み込むと、深度やカメラ情報を必要とせずに、少数のマルチビュー RGB 画像から実世界のオブジェクトを一般化します。
要約(オリジナル)
We present Real2Code, a novel approach to reconstructing articulated objects via code generation. Given visual observations of an object, we first reconstruct its part geometry using an image segmentation model and a shape completion model. We then represent the object parts with oriented bounding boxes, which are input to a fine-tuned large language model (LLM) to predict joint articulation as code. By leveraging pre-trained vision and language models, our approach scales elegantly with the number of articulated parts, and generalizes from synthetic training data to real world objects in unstructured environments. Experimental results demonstrate that Real2Code significantly outperforms previous state-of-the-art in reconstruction accuracy, and is the first approach to extrapolate beyond objects’ structural complexity in the training set, and reconstructs objects with up to 10 articulated parts. When incorporated with a stereo reconstruction model, Real2Code also generalizes to real world objects from a handful of multi-view RGB images, without the need for depth or camera information.
arxiv情報
著者 | Zhao Mandi,Yijia Weng,Dominik Bauer,Shuran Song |
発行日 | 2024-06-12 17:57:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google