要約
大規模な言語モデル(LLMS)および視覚言語モデル(VLM)の最近の進歩は、ロボット工学に大きな影響を与え、高レベルのセマンティックモーションプランニングアプリケーションを可能にします。
補完的なパラダイムである強化学習(RL)は、エージェントが相互作用と報酬シグナルを通じて複雑な動作を自律的に最適化することを可能にします。
ただし、RLの効果的な報酬機能の設計は、特にまばらな報酬が不十分で密集した報酬が必要な実世界のタスクでは、精巧な設計が必要です。
この作業では、自然言語のタスクの説明から直接報酬機能を生成するために、訓練を受けたLLMであるGPT-4をレバレッジする監視なしのパイプラインである複雑なヒト形成環境(Archie)の自律強化学習を提案します。
報酬は、シミュレートされた環境でRLエージェントをトレーニングするために使用されます。この環境では、実現可能性を高めるために報酬生成プロセスを形式化します。
さらに、GPT-4は、タスクの成功基準のコーディングを自動化し、人間が読みやすいテキストを展開可能なロボットスキルに変換するための完全に自動化されたワンショット手順を作成します。
私たちのアプローチは、ABBユミの共同ロボットを使用した単一腕および双方数の操作タスクに関する広範なシミュレーション実験を通じて検証され、その実用性と有効性を強調しています。
実際のロボットのセットアップでタスクが実証されています。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) and Visual Language Models (VLMs) have significantly impacted robotics, enabling high-level semantic motion planning applications. Reinforcement Learning (RL), a complementary paradigm, enables agents to autonomously optimize complex behaviors through interaction and reward signals. However, designing effective reward functions for RL remains challenging, especially in real-world tasks where sparse rewards are insufficient and dense rewards require elaborate design. In this work, we propose Autonomous Reinforcement learning for Complex HumanInformed Environments (ARCHIE), an unsupervised pipeline leveraging GPT-4, a pre-trained LLM, to generate reward functions directly from natural language task descriptions. The rewards are used to train RL agents in simulated environments, where we formalize the reward generation process to enhance feasibility. Additionally, GPT-4 automates the coding of task success criteria, creating a fully automated, one-shot procedure for translating human-readable text into deployable robot skills. Our approach is validated through extensive simulated experiments on single-arm and bi-manual manipulation tasks using an ABB YuMi collaborative robot, highlighting its practicality and effectiveness. Tasks are demonstrated on the real robot setup.
arxiv情報
著者 | Niccolò Turcato,Matteo Iovino,Aris Synodinos,Alberto Dalla Libera,Ruggero Carli,Pietro Falco |
発行日 | 2025-03-07 10:06:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google