Foundation Models in Robotics: Applications, Challenges, and the Future

要約

私たちは、ロボット工学における事前トレーニングされた基礎モデルのアプリケーションを調査します。
ロボット工学における従来の深層学習モデルは、特定のタスクに合わせて調整された小さなデータセットでトレーニングされるため、さまざまなアプリケーションにわたる適応性が制限されます。
対照的に、インターネット規模のデータで事前トレーニングされた基礎モデルは、優れた一般化機能を備えているようで、場合によっては、トレーニング データに存在しない問題に対するゼロショットの解決策を見つける創発的な能力を示します。
基礎モデルは、知覚から意思決定および制御に至るまで、ロボット自律スタックのさまざまなコンポーネントを強化する可能性を秘めています。
たとえば、大規模な言語モデルはコードを生成したり、常識的な推論を提供したりできますが、ビジョン言語モデルはオープンな語彙の視覚認識を可能にします。
しかし、特にロボット関連のトレーニングデータの不足、安全性の保証と不確実性の定量化、およびリアルタイム実行に関して、未解決の研究に関する重大な課題が残されています。
この調査では、ロボット工学の問題を解決するために基礎モデルを使用または構築した最近の論文を調査します。
私たちは、基礎モデルが知覚、意思決定、制御の領域におけるロボットの能力の向上にどのように貢献するかを調査します。
ロボットの自律性における基礎モデルの採用を妨げる課題について議論し、将来の進歩のための機会と潜在的な道筋を提供します。
この論文に対応する GitHub プロジェクト (暫定リリース。品質と関連性を確保するために、この作業をさらに強化し、更新することに取り組んでいます) は、ここから見つけることができます: https://github.com/robotics-survey/Awesome-Robotics-Foundation
-モデル

要約(オリジナル)

We survey applications of pretrained foundation models in robotics. Traditional deep learning models in robotics are trained on small datasets tailored for specific tasks, which limits their adaptability across diverse applications. In contrast, foundation models pretrained on internet-scale data appear to have superior generalization capabilities, and in some instances display an emergent ability to find zero-shot solutions to problems that are not present in the training data. Foundation models may hold the potential to enhance various components of the robot autonomy stack, from perception to decision-making and control. For example, large language models can generate code or provide common sense reasoning, while vision-language models enable open-vocabulary visual recognition. However, significant open research challenges remain, particularly around the scarcity of robot-relevant training data, safety guarantees and uncertainty quantification, and real-time execution. In this survey, we study recent papers that have used or built foundation models to solve robotics problems. We explore how foundation models contribute to improving robot capabilities in the domains of perception, decision-making, and control. We discuss the challenges hindering the adoption of foundation models in robot autonomy and provide opportunities and potential pathways for future advancements. The GitHub project corresponding to this paper (Preliminary release. We are committed to further enhancing and updating this work to ensure its quality and relevance) can be found here: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

arxiv情報

著者 Roya Firoozi,Johnathan Tucker,Stephen Tian,Anirudha Majumdar,Jiankai Sun,Weiyu Liu,Yuke Zhu,Shuran Song,Ashish Kapoor,Karol Hausman,Brian Ichter,Danny Driess,Jiajun Wu,Cewu Lu,Mac Schwager
発行日 2023-12-13 02:20:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク