要約
機械学習における最近の進歩は、ロボット工学における連続的な意思決定の複雑さの増加を処理できる自律エージェントを訓練する方法を提供します。
模倣学習(IL)は顕著なアプローチであり、エージェントは人間のデモンストレーションに基づいてロボットを制御することを学びます。
ただし、ILは一般に、ロボットタスクで独立した同一に分布している(I.I.D)仮定に違反することに苦しんでいます。
インタラクティブな模倣学習(IIL)は、エージェントが人間の教師からのインタラクティブなフィードバックから学習できるようにすることにより、パフォーマンスの向上を実現します。
これらの改善にもかかわらず、両方のアプローチには、人間の関与が必要であるため、かなりのコストがかかります。
人間のような応答の推論と生成において、大規模な言語モデル(LLMS)の緊急能力を活用して、LLM-Iteachを紹介します。これは、人事への依存を緩和しながらエージェントのパフォーマンスを強化するためのインタラクティブな教師としてLLMを利用する新しいIILフレームワークです。
第一に、LLM-Iteachは、Pythonコードでポリシーを生成する際にLLMを導く階層的なプロンプト戦略を使用します。
次に、設計された類似性ベースのフィードバックメカニズムにより、LLM-Iteachは、エージェントのトレーニング中に是正および評価フィードバックをインタラクティブに提供します。
さまざまなロボット操作タスクで、人間の教師を使用した最先端のIILメソッドであるILメソッドであるBehavior Cloning(BC)、Ceilingなどのベースラインメソッドに対してLLM-Iteachを評価します。
私たちの結果は、LLM-Iteachが成功率でBCを上回り、天井のそれを達成または上回ることを示しており、LLMの可能性をインタラクティブな学習環境で費用対効果の高い人間のような教師として強調しています。
さらに、追加のタスクで評価することにより、メソッドの一般化の可能性を実証します。
コードとプロンプトは、https://github.com/tubicor/llm-iteachで提供されます。
要約(オリジナル)
Recent advancements in machine learning provide methods to train autonomous agents capable of handling the increasing complexity of sequential decision-making in robotics. Imitation Learning (IL) is a prominent approach, where agents learn to control robots based on human demonstrations. However, IL commonly suffers from violating the independent and identically distributed (i.i.d) assumption in robotic tasks. Interactive Imitation Learning (IIL) achieves improved performance by allowing agents to learn from interactive feedback from human teachers. Despite these improvements, both approaches come with significant costs due to the necessity of human involvement. Leveraging the emergent capabilities of Large Language Models (LLMs) in reasoning and generating human-like responses, we introduce LLM-iTeach — a novel IIL framework that utilizes an LLM as an interactive teacher to enhance agent performance while alleviating the dependence on human resources. Firstly, LLM-iTeach uses a hierarchical prompting strategy that guides the LLM in generating a policy in Python code. Then, with a designed similarity-based feedback mechanism, LLM-iTeach provides corrective and evaluative feedback interactively during the agent’s training. We evaluate LLM-iTeach against baseline methods such as Behavior Cloning (BC), an IL method, and CEILing, a state-of-the-art IIL method using a human teacher, on various robotic manipulation tasks. Our results demonstrate that LLM-iTeach surpasses BC in the success rate and achieves or even outscores that of CEILing, highlighting the potential of LLMs as cost-effective, human-like teachers in interactive learning environments. We further demonstrate the method’s potential for generalization by evaluating it on additional tasks. The code and prompts are provided at: https://github.com/Tubicor/LLM-iTeach.
arxiv情報
著者 | Jonas Werner,Kun Chu,Cornelius Weber,Stefan Wermter |
発行日 | 2025-04-30 16:14:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google