要約
広範な現実世界のデータを取得するのが難しいため、ロボット シミュレーションは並列トレーニングやシミュレーションから現実への転送に不可欠なものとなっており、スケーラブルなシミュレートされたロボット タスクの重要性が強調されています。
基礎モデルは、実行可能なロボットタスクを自律的に生成する優れた能力を実証しました。
ただし、この新しいパラダイムは、自律的に生成されたタスクを適切に評価するという課題を浮き彫りにしています。
これに対処するために、生成シミュレーションに合わせた包括的な評価フレームワークを提案します。
私たちのフレームワークは、評価を品質、多様性、一般化という 3 つの主要な側面に分割します。
単一タスクの品質については、大規模な言語モデルとビジョン言語モデルを使用して、生成されたタスクの現実性と生成された軌跡の完全性を評価します。
多様性の観点からは、タスク説明のテキストの類似性と、収集されたタスクの軌跡でトレーニングされた世界モデルの損失を通じて、タスクとデータの両方の多様性を測定します。
タスクレベルの汎化では、生成された複数のタスクでトレーニングされたポリシーの目に見えないタスクに対するゼロショット汎化能力を評価します。
3 つの代表的なタスク生成パイプラインで行われた実験は、私たちのフレームワークからの結果が人間の評価と非常に一致していることを実証し、私たちのアプローチの実現可能性と妥当性を確認しました。
この調査結果は、品質と多様性の指標は特定の方法で達成できるものの、すべての指標にわたって優れた単一のアプローチはないことを明らかにしており、これらのさまざまな指標のバランスをとることにさらに重点を置く必要があることを示唆しています。
さらに、私たちの分析は、現在の研究が直面している一般化能力の低さという共通の課題をさらに強調しています。
当社の匿名ウェブサイト: https://sites.google.com/view/evaltasks。
要約(オリジナル)
Due to the difficulty of acquiring extensive real-world data, robot simulation has become crucial for parallel training and sim-to-real transfer, highlighting the importance of scalable simulated robotic tasks. Foundation models have demonstrated impressive capacities in autonomously generating feasible robotic tasks. However, this new paradigm underscores the challenge of adequately evaluating these autonomously generated tasks. To address this, we propose a comprehensive evaluation framework tailored to generative simulations. Our framework segments evaluation into three core aspects: quality, diversity, and generalization. For single-task quality, we evaluate the realism of the generated task and the completeness of the generated trajectories using large language models and vision-language models. In terms of diversity, we measure both task and data diversity through text similarity of task descriptions and world model loss trained on collected task trajectories. For task-level generalization, we assess the zero-shot generalization ability on unseen tasks of a policy trained with multiple generated tasks. Experiments conducted on three representative task generation pipelines demonstrate that the results from our framework are highly consistent with human evaluations, confirming the feasibility and validity of our approach. The findings reveal that while metrics of quality and diversity can be achieved through certain methods, no single approach excels across all metrics, suggesting a need for greater focus on balancing these different metrics. Additionally, our analysis further highlights the common challenge of low generalization capability faced by current works. Our anonymous website: https://sites.google.com/view/evaltasks.
arxiv情報
著者 | Feng Chen,Botian Xu,Pu Hua,Peiqi Duan,Yanchao Yang,Yi Ma,Huazhe Xu |
発行日 | 2024-10-10 17:49:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google