要約
長老様式のモバイル操作(MOMA)タスクを効率的に学習および実行することは、家庭および職場の設定でロボット工学を進めるために重要です。
ただし、現在のMOMAモデルはデータが効率的であり、存在しない効率を評価するために現実的なサイズのベンチマークを必要とする改善されたモデルの必要性を強調しています。
これに対処するために、Lambda({\ Lambda})ベンチマーク(指示されたアクティビティのモバイル操作ベンチマークのための長距離アクション)を紹介します。これは、言語条件付き、長期領域、マルチルーム、マルチルームのモデルのデータ効率を評価します。
管理可能なサイズのデータセットを使用したマルチフロア、ピックアンドプレイスタスク、コレクションの可能性が高くなります。
ベンチマークには、シミュレートされた現実世界の設定におけるリアリズムと多様性を提供する571人の人間が収集したデモが含まれています。
プランナーで生成されたデータとは異なり、これらの軌跡は自然な変動性とリプレイの均等性を提供し、堅牢な学習と評価を確保します。
学習ベースのモデルや、基礎モデルとタスクとモーションの計画を組み合わせた神経系対称モジュラーアプローチなど、いくつかのモデルをベンチマークします。
学習ベースのモデルは、事前に抑制された重量を活用した場合でも、最適ではない成功率を示し、重要なデータの非効率性を強調しています。
ただし、ニューロシンボリックアプローチは、データ効率が高くなりながら、パフォーマンスが大幅に向上します。
調査結果は、よりデータ効率の高い学習ベースのMOMAアプローチの必要性を強調しています。
{\ lambda}は、家庭用ロボット工学タスクの処理においてこれらの将来のモデルのデータ効率を評価するための重要なベンチマークとして機能することにより、このギャップに対処します。
要約(オリジナル)
Efficiently learning and executing long-horizon mobile manipulation (MoMa) tasks is crucial for advancing robotics in household and workplace settings. However, current MoMa models are data-inefficient, underscoring the need for improved models that require realistic-sized benchmarks to evaluate their efficiency, which do not exist. To address this, we introduce the LAMBDA ({\lambda}) benchmark (Long-horizon Actions for Mobile-manipulation Benchmarking of Directed Activities), which evaluates the data efficiency of models on language-conditioned, long-horizon, multi-room, multi-floor, pick-and-place tasks using a dataset of manageable size, more feasible for collection. The benchmark includes 571 human-collected demonstrations that provide realism and diversity in simulated and real-world settings. Unlike planner-generated data, these trajectories offer natural variability and replay-verifiability, ensuring robust learning and evaluation. We benchmark several models, including learning-based models and a neuro-symbolic modular approach combining foundation models with task and motion planning. Learning-based models show suboptimal success rates, even when leveraging pretrained weights, underscoring significant data inefficiencies. However, the neuro-symbolic approach performs significantly better while being more data efficient. Findings highlight the need for more data-efficient learning-based MoMa approaches. {\lambda} addresses this gap by serving as a key benchmark for evaluating the data efficiency of those future models in handling household robotics tasks.
arxiv情報
著者 | Ahmed Jaafar,Shreyas Sundara Raman,Yichen Wei,Sudarshan Harithas,Sofia Juliani,Anneke Wernerfelt,Benedict Quartey,Ifrah Idrees,Jason Xinyu Liu,Stefanie Tellex |
発行日 | 2025-01-27 18:53:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google