Closed Loop Interactive Embodied Reasoning for Robot Manipulation

要約

身体的推論システムは、ロボット ハードウェアと認知プロセスを統合し、通常、特定の物理環境に関する自然言語クエリに応答して複雑なタスクを実行します。
これには通常、シーンについての信念を変えることや、物理的に相互作用してシーンを変更することが含まれます (例: 「オブジェクトを最も軽いものから最も重いものへ並べ替える」)。
このようなシステムの開発を促進するために、MuJoCo 物理エンジンと高品質レンダラー Blender を利用した新しいシミュレーション環境を導入し、シーンの物理的状態にも正確な現実的な視覚観察を提供します。
シミュレーターと併せて、視覚的および物理的測定を同時に必要とする、10 クラスのマルチステップ推論シナリオで構成される新しいベンチマークを提案します。
最後に、非視覚オブジェクトの特性の測定、外乱によって引き起こされるシーンの変化、およびロボット動作の不確実な結果を考慮した、新しいモジュール式閉ループ対話型推論 (CLIER) アプローチを開発します。
私たちはシミュレーションと現実世界の操作タスクで推論アプローチを広範囲に評価し、それぞれ 76% と 64% を超える成功率を達成しました。

要約(オリジナル)

Embodied reasoning systems integrate robotic hardware and cognitive processes to perform complex tasks typically in response to a natural language query about a specific physical environment. This usually involves changing the belief about the scene or physically interacting and changing the scene (e.g. ‘Sort the objects from lightest to heaviest’). In order to facilitate the development of such systems we introduce a new simulating environment that makes use of MuJoCo physics engine and high-quality renderer Blender to provide realistic visual observations that are also accurate to the physical state of the scene. Together with the simulator we propose a new benchmark composed of 10 classes of multi-step reasoning scenarios that require simultaneous visual and physical measurements. Finally, we develop a new modular Closed Loop Interactive Reasoning (CLIER) approach that takes into account the measurements of non-visual object properties, changes in the scene caused by external disturbances as well as uncertain outcomes of robotic actions. We extensively evaluate our reasoning approach in simulation and in the real world manipulation tasks with a success rate above 76% and 64%, respectively.

arxiv情報

著者 Michal Nazarczuk,Jan Kristof Behrens,Karla Stepanova,Matej Hoffmann,Krystian Mikolajczyk
発行日 2024-04-23 16:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク