Real-World Robot Applications of Foundation Models: A Review

要約

大規模言語モデル (LLM) やビジョン言語モデル (VLM) などの基礎モデルの最近の開発は、広範なデータに基づいてトレーニングされ、さまざまなタスクやモダリティにわたる柔軟な適用を促進します。
その影響は、医療、教育、ロボット工学など、さまざまな分野に及びます。
このペーパーでは、既存のロボット システム内の特定のコンポーネントの置き換えに主に重点を置き、現実世界のロボット工学における基礎モデルの実際的な応用の概要を説明します。
この概要には、基礎モデルにおける入出力関係の観点と、ロボティクス分野における認識、動作計画、および制御における基礎モデルの役割が含まれています。
この文書は、実際のロボット応用に対する将来の課題と影響についての議論で締めくくられています。

要約(オリジナル)

Recent developments in foundation models, like Large Language Models (LLMs) and Vision-Language Models (VLMs), trained on extensive data, facilitate flexible application across different tasks and modalities. Their impact spans various fields, including healthcare, education, and robotics. This paper provides an overview of the practical application of foundation models in real-world robotics, with a primary emphasis on the replacement of specific components within existing robot systems. The summary encompasses the perspective of input-output relationships in foundation models, as well as their role in perception, motion planning, and control within the field of robotics. This paper concludes with a discussion of future challenges and implications for practical robot applications.

arxiv情報

著者 Kento Kawaharazuka,Tatsuya Matsushima,Andrew Gambardella,Jiaxian Guo,Chris Paxton,Andy Zeng
発行日 2024-10-23 03:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク