要約
長周期移動操作(MoMa)タスクを効率的に学習・実行することは、家庭や職場環境におけるロボティクスを発展させる上で極めて重要である。しかし、現在のMoMaモデルはデータ効率が悪く、その効率を評価するための現実的なサイズのベンチマークが存在しないため、モデルの改善が必要である。この問題に対処するために、我々はLAMBDA ({lambda}) ベンチマーク(Long-horizon Actions for Mobile-manipulation Benchmarking of Directed Activities)を導入する。このベンチマークは、言語条件付き、ロングホライズン、マルチルーム、マルチフロア、ピックアンドプレースタスクにおけるモデルのデータ効率を、収集がより実現可能な管理可能なサイズのデータセットを用いて評価する。このベンチマークには、シミュレートされた実世界の設定における現実性と多様性を提供する、人間が収集した571のデモが含まれる。プランナーが生成したデータとは異なり、これらの軌跡は自然な可変性と再生検証可能性を提供し、ロバストな学習と評価を保証する。学習ベースのモデルや、基礎モデルとタスク・運動計画を組み合わせたニューロシンボリック・モジュラーアプローチなど、いくつかのモデルのベンチマークを行う。学習ベースのモデルは、事前に訓練された重みを活用した場合でも、最適な成功率を示さず、データの非効率性が顕著であることが明らかになった。しかし、ニューロシンボリックアプローチは、データ効率に優れながら、有意に優れたパフォーマンスを示す。この結果は、よりデータ効率の良い学習ベースのMoMaアプローチの必要性を強調している。{lambda}は、家庭用ロボットのタスクを処理する際の、将来のモデルのデータ効率を評価するための重要なベンチマークとして機能することで、このギャップに対処する。
要約(オリジナル)
Efficiently learning and executing long-horizon mobile manipulation (MoMa) tasks is crucial for advancing robotics in household and workplace settings. However, current MoMa models are data-inefficient, underscoring the need for improved models that require realistic-sized benchmarks to evaluate their efficiency, which do not exist. To address this, we introduce the LAMBDA ({\lambda}) benchmark (Long-horizon Actions for Mobile-manipulation Benchmarking of Directed Activities), which evaluates the data efficiency of models on language-conditioned, long-horizon, multi-room, multi-floor, pick-and-place tasks using a dataset of manageable size, more feasible for collection. The benchmark includes 571 human-collected demonstrations that provide realism and diversity in simulated and real-world settings. Unlike planner-generated data, these trajectories offer natural variability and replay-verifiability, ensuring robust learning and evaluation. We benchmark several models, including learning-based models and a neuro-symbolic modular approach combining foundation models with task and motion planning. Learning-based models show suboptimal success rates, even when leveraging pretrained weights, underscoring significant data inefficiencies. However, the neuro-symbolic approach performs significantly better while being more data efficient. Findings highlight the need for more data-efficient learning-based MoMa approaches. {\lambda} addresses this gap by serving as a key benchmark for evaluating the data efficiency of those future models in handling household robotics tasks.
arxiv情報
著者 | Ahmed Jaafar,Shreyas Sundara Raman,Yichen Wei,Sudarshan Harithas,Sofia Juliani,Anneke Wernerfelt,Benedict Quartey,Ifrah Idrees,Jason Xinyu Liu,Stefanie Tellex |
発行日 | 2025-02-03 18:54:17+00:00 |
arxivサイト | arxiv_id(pdf) |