Offline Imitation Learning Through Graph Search and Retrieval

要約

模倣学習は、ロボットが操作スキルを習得するための強力な機械学習アルゴリズムです。
それにもかかわらず、現実世界の操作タスクの多くは、正確かつ器用なロボットとオブジェクトの相互作用を伴うため、人間が高品質の専門家によるデモンストレーションを収集することが困難になっています。
その結果、ロボットは最適ではないデモンストレーションや構造化されていないインタラクションからスキルを学習する必要があり、これが依然として重要な課題となっています。
既存の研究では通常、オフラインの深層強化学習 (RL) を使用してこの課題を解決していますが、実際には、致命的なトライアドの問題により、これらのアルゴリズムは不安定で脆弱です。
この問題を克服するために、グラフの検索と取得を通じて次善のデモンストレーションから学習する、シンプルだが効果的なアルゴリズムである GSR を提案します。
まず、事前トレーニングされた表現を使用してインタラクション エクスペリエンスをグラフに整理し、グラフ検索を実行してさまざまな動作の値を計算します。
次に、検索ベースの手順を適用して各状態での最適な動作 (アクション) を特定し、動作の複製を使用してその動作を学習します。
私たちは、シミュレーションと複雑な視覚入力による現実世界のロボット操作タスクの両方でメソッドを評価し、さまざまな物理的特性のオブジェクトを使用するさまざまな正確で器用な操作スキルをカバーします。
GSR は、ベースラインと比較して 10% ~ 30% 高い成功率と 30% 以上高い熟練度を達成できます。
私たちのプロジェクト ページは https://zhaohengyin.github.io/gsr にあります。

要約(オリジナル)

Imitation learning is a powerful machine learning algorithm for a robot to acquire manipulation skills. Nevertheless, many real-world manipulation tasks involve precise and dexterous robot-object interactions, which make it difficult for humans to collect high-quality expert demonstrations. As a result, a robot has to learn skills from suboptimal demonstrations and unstructured interactions, which remains a key challenge. Existing works typically use offline deep reinforcement learning (RL) to solve this challenge, but in practice these algorithms are unstable and fragile due to the deadly triad issue. To overcome this problem, we propose GSR, a simple yet effective algorithm that learns from suboptimal demonstrations through Graph Search and Retrieval. We first use pretrained representation to organize the interaction experience into a graph and perform a graph search to calculate the values of different behaviors. Then, we apply a retrieval-based procedure to identify the best behavior (actions) on each state and use behavior cloning to learn that behavior. We evaluate our method in both simulation and real-world robotic manipulation tasks with complex visual inputs, covering various precise and dexterous manipulation skills with objects of different physical properties. GSR can achieve a 10% to 30% higher success rate and over 30% higher proficiency compared to baselines. Our project page is at https://zhaohengyin.github.io/gsr.

arxiv情報

著者 Zhao-Heng Yin,Pieter Abbeel
発行日 2024-07-22 06:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク