要約
万能ロボットの実現は研究者の究極の目標です。
しかし、この目標を達成するための重要なハードルは、さまざまなタスクに従って非構造化された周囲環境にある物体を操作するロボットの能力にあります。
学習ベースのアプローチは、一般化に対処する効果的な方法と考えられています。
コンピューター ビジョンと自然言語の分野における基礎モデルの優れたパフォーマンスは、一般的な操作能力を達成するための実行可能な道として、基礎モデルを操作タスクに埋め込む可能性を示唆しています。
しかし、一般的な操作能力を実現するには、自動運転に似た包括的なフレームワークが必要であると私たちは考えています。
このフレームワークは、一般的な操作機能を促進する際に異なる役割を担うさまざまな基盤モデルを備えた複数の機能モジュールを包含する必要があります。
この調査は、マニピュレーションのためのロボット学習への基礎モデルの貢献に焦点を当てています。
私たちは包括的なフレームワークを提案し、基礎モデルがフレームワークの各モジュールの課題にどのように対処できるかを詳しく説明します。
さらに、現在のアプローチを調査し、課題を概説し、将来の研究の方向性を提案し、基礎モデルをこの領域に統合することに関連する潜在的なリスクを特定します。
要約(オリジナル)
The realization of universal robots is an ultimate goal of researchers. However, a key hurdle in achieving this goal lies in the robots’ ability to manipulate objects in their unstructured surrounding environments according to different tasks. The learning-based approach is considered an effective way to address generalization. The impressive performance of foundation models in the fields of computer vision and natural language suggests the potential of embedding foundation models into manipulation tasks as a viable path toward achieving general manipulation capability. However, we believe achieving general manipulation capability requires an overarching framework akin to auto driving. This framework should encompass multiple functional modules, with different foundation models assuming distinct roles in facilitating general manipulation capability. This survey focuses on the contributions of foundation models to robot learning for manipulation. We propose a comprehensive framework and detail how foundation models can address challenges in each module of the framework. What’s more, we examine current approaches, outline challenges, suggest future research directions, and identify potential risks associated with integrating foundation models into this domain.
arxiv情報
著者 | Dingzhe Li,Yixiang Jin,Yong A,Hongze Yu,Jun Shi,Xiaoshuai Hao,Peng Hao,Huaping Liu,Fuchun Sun,Jianwei Zhang,Bin Fang |
発行日 | 2024-08-09 12:13:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google