要約
具現化AIの探求は数十年に及ぶが、知覚、学習、推論、意思決定、制御、汎化能力を含む人間レベルの知能をエージェントに付与し、オープンで非構造的かつ動的な環境において汎用的なタスクを実行できるようにすることは、依然として根強い課題である。コンピュータビジョン、自然言語処理、マルチモダリティ学習における最近の進歩は、基礎となるモデルが特定のタスクに対して超人的な能力を持つことを示している。これらは、基本モジュールを具現化されたAIシステムに統合するための強固な礎石を提供するだけでなく、方法論の観点からロボット学習をスケールアップさせる方法にも光を当てている。本サーベイの目的は、ロボット工学における基礎モデルの包括的かつ最新の概要を提供することであり、自律操作に焦点を当て、高レベルのプランニングと低レベルの制御を包含する。さらに、一般的に使用されているデータセット、シミュレータ、ベンチマークを紹介する。重要なことは、この分野に内在する重要な課題を強調し、将来の研究の可能性を明確にすることであり、学術的・産業的言説のフロンティアを前進させることに貢献する。
要約(オリジナル)
While the exploration for embodied AI has spanned multiple decades, it remains a persistent challenge to endow agents with human-level intelligence, including perception, learning, reasoning, decision-making, control, and generalization capabilities, so that they can perform general-purpose tasks in open, unstructured, and dynamic environments. Recent advances in computer vision, natural language processing, and multi-modality learning have shown that the foundation models have superhuman capabilities for specific tasks. They not only provide a solid cornerstone for integrating basic modules into embodied AI systems but also shed light on how to scale up robot learning from a methodological perspective. This survey aims to provide a comprehensive and up-to-date overview of foundation models in robotics, focusing on autonomous manipulation and encompassing high-level planning and low-level control. Moreover, we showcase their commonly used datasets, simulators, and benchmarks. Importantly, we emphasize the critical challenges intrinsic to this field and delineate potential avenues for future research, contributing to advancing the frontier of academic and industrial discourse.
arxiv情報
著者 | Zhiyuan Xu,Kun Wu,Junjie Wen,Jinming Li,Ning Liu,Zhengping Che,Jian Tang |
発行日 | 2024-02-04 07:55:01+00:00 |
arxivサイト | arxiv_id(pdf) |