DEF-oriCORN: efficient 3D scene understanding for robust language-directed manipulation without demonstrations

要約

言語主導の操作タスク用のフレームワークである DEF-oriCORN を紹介します。
新しいオブジェクトベースのシーン表現と拡散モデルベースの状態推定アルゴリズムを活用することで、私たちのフレームワークは、デモンストレーションなしでカメラビューがまばらで密集した環境でも、口頭コマンドに応じて効率的かつ堅牢な操作計画を可能にします。
従来の表現とは異なり、私たちの表現は効率的な衝突チェックと言語グラウンディングを可能にします。
最先端のベースラインと比較して、当社のフレームワークは、シミュレーションのみでトレーニングされているにもかかわらず、まばらな RGB 画像から優れた推定および動作計画パフォーマンスを実現し、ゼロショットは透明物体や反射物体を含む多様なマテリアルを含む現実世界のシナリオに一般化します。

データ生成、トレーニング、推論、事前トレーニングされた重みのコードは、https://sites.google.com/view/def-oricorn/home で公開されています。

要約(オリジナル)

We present DEF-oriCORN, a framework for language-directed manipulation tasks. By leveraging a novel object-based scene representation and diffusion-model-based state estimation algorithm, our framework enables efficient and robust manipulation planning in response to verbal commands, even in tightly packed environments with sparse camera views without any demonstrations. Unlike traditional representations, our representation affords efficient collision checking and language grounding. Compared to state-of-the-art baselines, our framework achieves superior estimation and motion planning performance from sparse RGB images and zero-shot generalizes to real-world scenarios with diverse materials, including transparent and reflective objects, despite being trained exclusively in simulation. Our code for data generation, training, inference, and pre-trained weights are publicly available at: https://sites.google.com/view/def-oricorn/home.

arxiv情報

著者 Dongwon Son,Sanghyeon Son,Jaehyung Kim,Beomjoon Kim
発行日 2024-07-31 01:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク