要約
この研究では、専門家以外のアクションのない観察データから長期的な目標達成政策を学習するという困難な問題に取り組みます。
完全にラベル付けされた専門家データとは異なり、当社のデータはアクセスしやすく、アクションのラベル付けというコストのかかるプロセスを回避できます。
さらに、目的のない探索を伴うことが多いオンライン学習と比較して、当社のデータは、より効率的な探索を行うための有用なガイダンスを提供します。
目標を達成するために、新しいサブゴール指導学習戦略を提案します。
この戦略の背後にある動機は、長期的な目標では、効率的な探索と正確な状態遷移のための限られたガイダンスしか提供しないことにあります。
私たちは普及戦略に基づいた高レベルのポリシーを開発し、中間点として合理的なサブ目標を生成し、最終目標に到達しやすい状態を優先します。
さらに、効率的なサブ目標の達成を促進するために、状態目標値関数を学習します。
これら 2 つのコンポーネントは、ポリシー外のアクターと批評家のフレームワークに自然に統合され、有益な探索を通じて効率的に目標を達成できるようになります。
複雑なロボットのナビゲーションおよび操作タスクに関するメソッドを評価し、既存のメソッドと比べてパフォーマンスが大幅に向上することを実証しました。
私たちのアブレーション研究はさらに、私たちの方法がさまざまな破損を含む観察データに対して堅牢であることを示しています。
要約(オリジナル)
In this work, we address the challenging problem of long-horizon goal-reaching policy learning from non-expert, action-free observation data. Unlike fully labeled expert data, our data is more accessible and avoids the costly process of action labeling. Additionally, compared to online learning, which often involves aimless exploration, our data provides useful guidance for more efficient exploration. To achieve our goal, we propose a novel subgoal guidance learning strategy. The motivation behind this strategy is that long-horizon goals offer limited guidance for efficient exploration and accurate state transition. We develop a diffusion strategy-based high-level policy to generate reasonable subgoals as waypoints, preferring states that more easily lead to the final goal. Additionally, we learn state-goal value functions to encourage efficient subgoal reaching. These two components naturally integrate into the off-policy actor-critic framework, enabling efficient goal attainment through informative exploration. We evaluate our method on complex robotic navigation and manipulation tasks, demonstrating a significant performance advantage over existing methods. Our ablation study further shows that our method is robust to observation data with various corruptions.
arxiv情報
| 著者 | RenMing Huang,Shaochong Liu,Yunqiang Pei,Peng Wang,Guoqing Wang,Yang Yang,Hengtao Shen |
| 発行日 | 2024-09-06 02:49:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google