DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning

要約

ロボットの学習タスクは非常にコンピューティング集約的であり、ハードウェアに固有です。
したがって、ロボット操作エージェントのトレーニングに使用できるオフライン デモンストレーションの多様なデータセットを使用して、これらの課題に取り組む手段は非常に魅力的です。
Train-Offline-Test-Online (TOTO) ベンチマークは、大部分が専門家のデータと、一般的なオフライン RL および動作複製エージェントのベンチマーク スコアで構成される、オフライン トレーニング用に厳選されたオープンソース データセットを提供します。
この論文では、拡散ベースのポリシー学習を備えた強化された動作クローニング エージェントのオフライン アルゴリズムである DiffClone を紹介し、テスト時に実際のオンライン物理ロボットに対する私たちの方法の有効性を測定しました。
これは、NeurIPS 2023 で開催される Train-Offline-Test-Online (TOTO) ベンチマーク チャレンジへの正式な提出物でもあります。私たちは、事前トレーニングされた視覚表現とエージェント ポリシーの両方を実験しました。
私たちの実験では、MOCO で微調整された ResNet50 が他の微調整された表現と比較して最高のパフォーマンスを発揮することがわかりました。
目標状態の調整と遷移へのマッピングにより、成功率と平均報酬がわずかに増加しました。
エージェント ポリシーに関しては、条件付き拡散を使用して改良された動作クローニング エージェントである DiffClone を開発しました。

要約(オリジナル)

Robot learning tasks are extremely compute-intensive and hardware-specific. Thus the avenues of tackling these challenges, using a diverse dataset of offline demonstrations that can be used to train robot manipulation agents, is very appealing. The Train-Offline-Test-Online (TOTO) Benchmark provides a well-curated open-source dataset for offline training comprised mostly of expert data and also benchmark scores of the common offline-RL and behaviour cloning agents. In this paper, we introduce DiffClone, an offline algorithm of enhanced behaviour cloning agent with diffusion-based policy learning, and measured the efficacy of our method on real online physical robots at test time. This is also our official submission to the Train-Offline-Test-Online (TOTO) Benchmark Challenge organized at NeurIPS 2023. We experimented with both pre-trained visual representation and agent policies. In our experiments, we find that MOCO finetuned ResNet50 performs the best in comparison to other finetuned representations. Goal state conditioning and mapping to transitions resulted in a minute increase in the success rate and mean-reward. As for the agent policy, we developed DiffClone, a behaviour cloning agent improved using conditional diffusion.

arxiv情報

著者 Sabariswaran Mani,Abhranil Chandra,Sreyas Venkataraman,Adyan Rizvi,Yash Sirvi,Soumojit Bhattacharya,Aritra Hazra
発行日 2024-01-17 14:43:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク