要約
現在の具体化された推論エージェントは、必要な情報を取得するために世界と物理的に相互作用する必要がある長年のタスクを計画するのに苦労しています(たとえば、「最も軽いものから最も軽いものまでのオブジェクトを並べ替える」)。
このようなエージェントの機能の改善は、関連するトレーニング環境の可用性に大きく依存しています。
このようなシステムの開発を促進するために、Mujoco Physics Engineと高品質のレンダラーブレンダーを使用する新しいシミュレーション環境(ロボスウイトの上に構築された)を導入して、シーンの物理的状態にも正確な現実的な視覚観測を提供します。
これは、正確な物理学モデリングを維持する長老ロボット操作タスクに焦点を当てた最初のシミュレーターです。
Mubleは、トレーニング用のミトリモーダルデータを生成し、視覚 – アクションループ、および制御 – 物理ループの2つのレベルでの環境相互作用を通じて、閉ループメソッドの設計を可能にします。
シミュレーターとともに、Shop-VRB2を提案します。Shop-VRB2は、同時視覚的および物理的な測定値を必要とする10クラスのマルチステップ推論シナリオで構成される新しいベンチマークです。
要約(オリジナル)
Current embodied reasoning agents struggle to plan for long-horizon tasks that require to physically interact with the world to obtain the necessary information (e.g. ‘sort the objects from lightest to heaviest’). The improvement of the capabilities of such an agent is highly dependent on the availability of relevant training environments. In order to facilitate the development of such systems, we introduce a novel simulation environment (built on top of robosuite) that makes use of the MuJoCo physics engine and high-quality renderer Blender to provide realistic visual observations that are also accurate to the physical state of the scene. It is the first simulator focusing on long-horizon robot manipulation tasks preserving accurate physics modeling. MuBlE can generate mutlimodal data for training and enable design of closed-loop methods through environment interaction on two levels: visual – action loop, and control – physics loop. Together with the simulator, we propose SHOP-VRB2, a new benchmark composed of 10 classes of multi-step reasoning scenarios that require simultaneous visual and physical measurements.
arxiv情報
著者 | Michal Nazarczuk,Karla Stepanova,Jan Kristof Behrens,Matej Hoffmann,Krystian Mikolajczyk |
発行日 | 2025-03-04 17:57:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google