Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks

要約

大規模言語モデル (LLM) は、長期にわたるロボット工学タスクの高レベルの計画を実行できることが示されていますが、既存の方法では、事前に定義されたスキル ライブラリ (ピック、配置、引っ張る、押す、ナビゲートなど) へのアクセスが必要です。
ただし、LLM 計画では、これらの動作を設計または学習する方法については言及されておらず、特に長期的な設定では引き続き困難が伴います。
さらに、対象となる多くのタスクでは、ロボットはその動作をきめ細かく調整できる必要があり、エージェントが低レベルの制御アクションを変更できる必要があります。
代わりに、LLM から得られるインターネット規模の知識を高レベルのポリシーに使用し、事前に決められたスキルセットを必要とせずにロボット制御タスクをオンラインで効率的に解決するための強化学習 (RL) ポリシーを導くことはできるでしょうか?
この論文では、Plan-Seq-Learn (PSL) を提案します。これは、動作計画を使用して抽象言語と学習された低レベル制御の間のギャップを埋めるモジュラー アプローチで、長期的なロボット工学タスクをゼロから解決します。
PSL が最大 10 段階の 25 以上の難しいロボット タスクで最先端の結果を達成することを実証します。
PSL は、4 つのベンチマークにわたる生の視覚入力から長期的なタスクを 85% 以上の成功率で解決し、言語ベース、従来のエンドツーエンドのアプローチを上回ります。
ビデオ結果とコード (https://mihdalal.github.io/planseqlearn/)

要約(オリジナル)

Large Language Models (LLMs) have been shown to be capable of performing high-level planning for long-horizon robotics tasks, yet existing methods require access to a pre-defined skill library (e.g. picking, placing, pulling, pushing, navigating). However, LLM planning does not address how to design or learn those behaviors, which remains challenging particularly in long-horizon settings. Furthermore, for many tasks of interest, the robot needs to be able to adjust its behavior in a fine-grained manner, requiring the agent to be capable of modifying low-level control actions. Can we instead use the internet-scale knowledge from LLMs for high-level policies, guiding reinforcement learning (RL) policies to efficiently solve robotic control tasks online without requiring a pre-determined set of skills? In this paper, we propose Plan-Seq-Learn (PSL): a modular approach that uses motion planning to bridge the gap between abstract language and learned low-level control for solving long-horizon robotics tasks from scratch. We demonstrate that PSL achieves state-of-the-art results on over 25 challenging robotics tasks with up to 10 stages. PSL solves long-horizon tasks from raw visual input spanning four benchmarks at success rates of over 85%, out-performing language-based, classical, and end-to-end approaches. Video results and code at https://mihdalal.github.io/planseqlearn/

arxiv情報

著者 Murtaza Dalal,Tarun Chiruvolu,Devendra Chaplot,Ruslan Salakhutdinov
発行日 2024-05-02 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク