要約
大規模言語モデル (LLM) は、ロボット タスク学習の知識源として大きな可能性をもたらします。
迅速なエンジニアリングは、LLM から知識を引き出すには効果的であることが示されていますが、それだけでは、新しいタスクを学習する具体化されたロボット エージェントに関連する、状況に基づいた知識を獲得するには不十分です。
我々は、プロンプトエンジニアリングを拡張および補完し、その限界を緩和し、それによってロボットがその母国語能力、具体化、環境、およびユーザーの好みに適合した新しいタスク知識を獲得できるようにするコグニティブエージェントアプローチについて説明します。
このアプローチは、LLM の応答空間を増やし、自律ロボット内に組み込まれた一般的な戦略を展開して、LLM によって生成された候補応答を評価、修復、選択することです。
LLM からの幅広い応答を取得して評価することで、ロボットがどのようにしてユーザーの監視なしでワンショット学習で 75% 以上のタスク完了を達成できるかを示すアプローチと実験について説明します。
このアプローチでは、人間による監視 (好みの指示など) が提供されると 100% のタスク完了が達成され、人間による監視が必要になる量が大幅に削減されます。
要約(オリジナル)
Large language models (LLMs) offer significant promise as a knowledge source for robotic task learning. Prompt engineering has been shown to be effective for eliciting knowledge from an LLM but alone is insufficient for acquiring relevant, situationally grounded knowledge for an embodied robotic agent learning novel tasks. We describe a cognitive-agent approach that extends and complements prompt engineering, mitigating its limitations, and thus enabling a robot to acquire new task knowledge matched to its native language capabilities, embodiment, environment, and user preferences. The approach is to increase the response space of LLMs and deploy general strategies, embedded within the autonomous robot, to evaluate, repair, and select among candidate responses produced by the LLM. We describe the approach and experiments that show how a robot, by retrieving and evaluating a breadth of responses from the LLM, can achieve >75% task completion in one-shot learning without user oversight. The approach achieves 100% task completion when human oversight (such as indication of preference) is provided, while greatly reducing how much human oversight is needed.
arxiv情報
著者 | James R. Kirk,Robert E. Wray,Peter Lindes |
発行日 | 2023-06-15 15:05:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google