要約
現実世界のロボットタスクは広範囲に及び、複数の段階を網羅します。
ただし、長期にわたる操作タスクの学習は長年の課題であり、ポリシーの学習と目に見えないタスクへの一般化を促進するために、包括的なタスクをいくつかの管理可能なサブタスクに分解する必要があります。
以前のタスク分解方法はタスク固有の知識を必要とし、計算量が多く、新しいタスクにすぐに適用することはできません。
これらの欠点に対処するために、我々は、ロボット制御用に設計された事前学習済みの視覚表現を使用した視覚的長期操作のための既製のタスク分解手法である Universal Visual Decomposer (UVD) を提案します。
高レベルでは、UVD は、事前トレーニングされた表現の埋め込み空間内の位相シフトを検出することによってサブゴールを発見します。
UVD は、補助情報なしで純粋に視覚的なデモンストレーションに基づいて動作し、標準の視覚運動ポリシー トレーニングに加えて追加のトレーニング コストを発生させずに、ビデオに埋め込まれた視覚的なサブゴールを効果的に抽出できます。
UVD で発見されたサブ目標で学習された目標条件付きポリシーは、テスト時に目に見えないタスクに対する構成の一般化が大幅に向上しました。
さらに、UVD で発見されたサブ目標を使用して、強化学習の時間的に拡張された探索を開始する目標ベースの報酬形成を構築することができます。
私たちはシミュレーションと現実世界のタスクの両方で UVD を広範囲に評価しており、すべてのケースにおいて、UVD はドメイン内およびドメイン外のタスク シーケンスの模倣および強化学習設定全体でベースラインを大幅に上回り、自動化されたビジュアル タスクの明確な利点を検証しています。
シンプルでコンパクトな UVD フレームワーク内での分解。
要約(オリジナル)
Real-world robotic tasks stretch over extended horizons and encompass multiple stages. Learning long-horizon manipulation tasks, however, is a long-standing challenge, and demands decomposing the overarching task into several manageable subtasks to facilitate policy learning and generalization to unseen tasks. Prior task decomposition methods require task-specific knowledge, are computationally intensive, and cannot readily be applied to new tasks. To address these shortcomings, we propose Universal Visual Decomposer (UVD), an off-the-shelf task decomposition method for visual long horizon manipulation using pre-trained visual representations designed for robotic control. At a high level, UVD discovers subgoals by detecting phase shifts in the embedding space of the pre-trained representation. Operating purely on visual demonstrations without auxiliary information, UVD can effectively extract visual subgoals embedded in the videos, while incurring zero additional training cost on top of standard visuomotor policy training. Goal-conditioned policies learned with UVD-discovered subgoals exhibit significantly improved compositional generalization at test time to unseen tasks. Furthermore, UVD-discovered subgoals can be used to construct goal-based reward shaping that jump-starts temporally extended exploration for reinforcement learning. We extensively evaluate UVD on both simulation and real-world tasks, and in all cases, UVD substantially outperforms baselines across imitation and reinforcement learning settings on in-domain and out-of-domain task sequences alike, validating the clear advantage of automated visual task decomposition within the simple, compact UVD framework.
arxiv情報
著者 | Zichen Zhang,Yunshuang Li,Osbert Bastani,Abhishek Gupta,Dinesh Jayaraman,Yecheng Jason Ma,Luca Weihs |
発行日 | 2023-10-12 17:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google