A Roadmap for Embodied and Social Grounding in LLMs

要約

大規模言語モデル (LLM) とロボット システムの融合は、ロボット分野に革新的なパラダイムをもたらし、通信ドメインだけでなく、マルチモーダル入力処理、高度な推論、計画生成などのスキルにおいても比類のない機能を提供します。
LLM の知識を経験の世界に根付かせることは、ロボット工学における LLM の効率を活用するための重要な経路であると考えられてきました。
それにもかかわらず、LLM の表現をマルチモーダルなアプローチやロボットの身体と外界に接続するだけでは、操作している言語の意味を理解させるには十分ではありません。
人間からインスピレーションを得たこの作品は、エージェントが世界を把握し経験するために必要な 3 つの要素に注目します。
LLM グラウンディングのロードマップは、環境を体験するための参照点としての活動的な身体システム、外界との一貫した自己関連の相互作用のための時間的に構造化された体験、そして共通の根拠に基づいた共有体験を獲得するための社会的スキルで想定されています。

要約(オリジナル)

The fusion of Large Language Models (LLMs) and robotic systems has led to a transformative paradigm in the robotic field, offering unparalleled capabilities not only in the communication domain but also in skills like multimodal input handling, high-level reasoning, and plan generation. The grounding of LLMs knowledge into the empirical world has been considered a crucial pathway to exploit the efficiency of LLMs in robotics. Nevertheless, connecting LLMs’ representations to the external world with multimodal approaches or with robots’ bodies is not enough to let them understand the meaning of the language they are manipulating. Taking inspiration from humans, this work draws attention to three necessary elements for an agent to grasp and experience the world. The roadmap for LLMs grounding is envisaged in an active bodily system as the reference point for experiencing the environment, a temporally structured experience for a coherent, self-related interaction with the external world, and social skills to acquire a common-grounded shared experience.

arxiv情報

著者 Sara Incao,Carlo Mazzola,Giulia Belgiovine,Alessandra Sciutti
発行日 2024-09-25 13:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO, I.2.7 パーマリンク