要約
ロボットの学習タスクは、非常に計算負荷が高く、ハードウェア固有のものである。したがって、ロボット操作エージェントの訓練に使用できるオフラインデモの多様なデータセットを使用して、これらの課題に取り組む手段は非常に魅力的である。Train-Offline-Test-Online(TOTO)ベンチマークは、オフライントレーニングのためのオープンソースのデータセットを提供しており、そのほとんどがエキスパートデータで構成されています。本論文では、拡散に基づくポリシー学習により強化された行動クローニングエージェントのオフラインアルゴリズムであるDiffCloneを紹介し、テスト時に実際のオンライン物理ロボットを用いて本手法の有効性を測定した。これは、NeurIPS 2023で開催されたTrain-Offline-Test-Online (TOTO) Benchmark Challengeへの正式な応募でもある。我々は、事前に訓練された視覚表現とエージェントポリシーの両方を用いて実験を行った。実験では、MOCOのResNet50が、他の微調整された表現と比較して、最も良い性能を示した。ゴール状態の条件付けと遷移へのマッピングにより、成功率と平均報酬がわずかに増加した。エージェント政策に関しては、条件拡散を用いて改良した行動クローンエージェントであるDiffCloneを開発した。
要約(オリジナル)
Robot learning tasks are extremely compute-intensive and hardware-specific. Thus the avenues of tackling these challenges, using a diverse dataset of offline demonstrations that can be used to train robot manipulation agents, is very appealing. The Train-Offline-Test-Online (TOTO) Benchmark provides a well-curated open-source dataset for offline training comprised mostly of expert data and also benchmark scores of the common offline-RL and behaviour cloning agents. In this paper, we introduce DiffClone, an offline algorithm of enhanced behaviour cloning agent with diffusion-based policy learning, and measured the efficacy of our method on real online physical robots at test time. This is also our official submission to the Train-Offline-Test-Online (TOTO) Benchmark Challenge organized at NeurIPS 2023. We experimented with both pre-trained visual representation and agent policies. In our experiments, we find that MOCO finetuned ResNet50 performs the best in comparison to other finetuned representations. Goal state conditioning and mapping to transitions resulted in a minute increase in the success rate and mean-reward. As for the agent policy, we developed DiffClone, a behaviour cloning agent improved using conditional diffusion.
arxiv情報
著者 | Sabariswaran Mani,Abhranil Chandra,Sreyas Venkataraman,Adyan Rizvi,Yash Sirvi,Soumojit Bhattacharya,Aritra Hazra |
発行日 | 2024-05-06 10:39:17+00:00 |
arxivサイト | arxiv_id(pdf) |