Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models

要約

自然言語対話は、人間とロボットの直感的な対話の鍵となります。
人間の意図を表現するだけでなく、ロボットがコマンドを正しく理解できなかった場合に改善指示を伝えるためにも使用できます。
非常に重要なのは、そのようなインタラクションの経験から段階的に学習する能力をロボットに与え、ロボットの行動を改善したり、将来の間違いを回避したりできるようにすることです。
この論文では、自然なインタラクションから複雑な動作を段階的に学習するシステムを提案し、人型ロボットへの実装を実証します。
最近の進歩に基づいて、LLM が対話型コンソールで Python ステートメントを生成してロボットの認識と動作の両方を呼び出せるようにするというアイデアに基づいて、ロボットの動作を高レベルでオーケストレーションするための大規模言語モデル (LLM) を展開するシステムを紹介します。

人間の指示、環境の観察、および実行結果を LLM にフィードバックすることによって対話ループが閉じられ、次のステートメントの生成が通知されます。
具体的には、システムが間違いから対話的に学習できるようにする増分プロンプト学習を導入します。
その目的のために、LLM は人間のフィードバックに基づいて現在のインタラクションのコードレベルの改善を担当する別の LLM を呼び出すことができます。
改善されたインタラクションはロボットのメモリに保存され、同様のリクエストで取得されます。
私たちはこのシステムをヒューマノイドロボット ARMAR-6 のロボット認知アーキテクチャに統合し、一般化された漸進的に学習された知識を実証することによって、定量的 (シミュレーションで) と定性的 (シミュレーションと現実世界で) の両方でメソッドを評価します。

要約(オリジナル)

Natural-language dialog is key for intuitive human-robot interaction. It can be used not only to express humans’ intents, but also to communicate instructions for improvement if a robot does not understand a command correctly. Of great importance is to endow robots with the ability to learn from such interaction experience in an incremental way to allow them to improve their behaviors or avoid mistakes in the future. In this paper, we propose a system to achieve incremental learning of complex behavior from natural interaction, and demonstrate its implementation on a humanoid robot. Building on recent advances, we present a system that deploys Large Language Models (LLMs) for high-level orchestration of the robot’s behavior, based on the idea of enabling the LLM to generate Python statements in an interactive console to invoke both robot perception and action. The interaction loop is closed by feeding back human instructions, environment observations, and execution results to the LLM, thus informing the generation of the next statement. Specifically, we introduce incremental prompt learning, which enables the system to interactively learn from its mistakes. For that purpose, the LLM can call another LLM responsible for code-level improvements of the current interaction based on human feedback. The improved interaction is then saved in the robot’s memory, and thus retrieved on similar requests. We integrate the system in the robot cognitive architecture of the humanoid robot ARMAR-6 and evaluate our methods both quantitatively (in simulation) and qualitatively (in simulation and real-world) by demonstrating generalized incrementally-learned knowledge.

arxiv情報

著者 Leonard Bärmann,Rainer Kartmann,Fabian Peller-Konrad,Jan Niehues,Alex Waibel,Tamim Asfour
発行日 2024-05-16 09:07:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク