要約
我々は、人間から自由形式の自然言語による指示を受け、2本のアームを制御して、広い作業空間上で潜在的に長期的なタスクを協働して達成する、具現化されたAIシステムを発表する。我々のシステムはモジュール化されており、タスク計画のために最先端の大規模言語モデル、意味知覚のために視覚言語モデル、そして把持のために点群変換器を配備している。意味的・物理的安全性を考慮し、これらのモジュールはリアルタイムの軌道オプティマイザや、人間とロボットの接近を可能にするコンプライアント・トラッキング・コントローラとインターフェースされている。我々は、以下のタスクのパフォーマンスを実証する:バイアームの仕分け、開栓、ゴミ処理タスク。これらはゼロショットで行われ、使用されるモデルは、この双腕ロボット、シーン、ワークスペースからの実世界データで訓練されていない。解釈可能な入力と出力を持つモジュール方式で、学習ベースと非学習ベースのコンポーネントの両方を構成することで、ユーザーは故障や破損のポイントを簡単にデバッグすることができる。また、例えば模倣学習されたポリシーなど、プラットフォーム全体の堅牢性を向上させるために、モジュールをインプレース・スワップすることもできる。
要約(オリジナル)
We present an embodied AI system which receives open-ended natural language instructions from a human, and controls two arms to collaboratively accomplish potentially long-horizon tasks over a large workspace. Our system is modular: it deploys state of the art Large Language Models for task planning,Vision-Language models for semantic perception, and Point Cloud transformers for grasping. With semantic and physical safety in mind, these modules are interfaced with a real-time trajectory optimizer and a compliant tracking controller to enable human-robot proximity. We demonstrate performance for the following tasks: bi-arm sorting, bottle opening, and trash disposal tasks. These are done zero-shot where the models used have not been trained with any real world data from this bi-arm robot, scenes or workspace.Composing both learning- and non-learning-based components in a modular fashion with interpretable inputs and outputs allows the user to easily debug points of failures and fragilities. One may also in-place swap modules to improve the robustness of the overall platform, for instance with imitation-learned policies.
arxiv情報
著者 | Jake Varley,Sumeet Singh,Deepali Jain,Krzysztof Choromanski,Andy Zeng,Somnath Basu Roy Chowdhury,Avinava Dubey,Vikas Sindhwani |
発行日 | 2024-04-04 16:30:20+00:00 |
arxivサイト | arxiv_id(pdf) |