TraKDis: A Transformer-based Knowledge Distillation Approach for Visual Reinforcement Learning with Application to Cloth Manipulation

要約

視覚フィードバックに基づく強化学習を使用してロボットの布地操作にアプローチすることは、ロボットの知覚と制御を同時に学習できるため魅力的です。
しかし、布地の複雑な力学と、それに対応する状態の高次元性により、大きな課題が生じ、アイデアの実用性に影を落としています。
これらの問題に取り組むために、視覚強化学習の問題を 2 つの異なる段階に分解する、新しい Transformer ベースの知識蒸留アプローチである TraKDis を提案します。
最初の段階では、布地状態情報の完全な知識を備えた特権エージェントがトレーニングされます。
この特権エージェントは教師として機能し、後続の段階に貴重な指導とトレーニング信号を提供します。
第 2 段階には、知識の蒸留手順が含まれます。この手順では、特権エージェントによって取得された知識が、事前トレーニングされた状態推定と重みの初期化を活用することによって、ビジョンベースのエージェントに転送されます。
TraKDis は、最先端の RL 技術と比較して優れたパフォーマンスを示し、シミュレーションにおける布の折り畳みタスクで 21.9%、13.8%、および 8.3% の高いパフォーマンスを示しました。
さらに、堅牢性を検証するために、ノイズの多い環境でエージェントを評価します。
この結果は、環境の不確実性を効果的に処理し、適応する能力を示しています。
現実世界のシナリオにおける私たちの方法の効率性を示すために、実際のロボット実験も行われます。

要約(オリジナル)

Approaching robotic cloth manipulation using reinforcement learning based on visual feedback is appealing as robot perception and control can be learned simultaneously. However, major challenges result due to the intricate dynamics of cloth and the high dimensionality of the corresponding states, what shadows the practicality of the idea. To tackle these issues, we propose TraKDis, a novel Transformer-based Knowledge Distillation approach that decomposes the visual reinforcement learning problem into two distinct stages. In the first stage, a privileged agent is trained, which possesses complete knowledge of the cloth state information. This privileged agent acts as a teacher, providing valuable guidance and training signals for subsequent stages. The second stage involves a knowledge distillation procedure, where the knowledge acquired by the privileged agent is transferred to a vision-based agent by leveraging pre-trained state estimation and weight initialization. TraKDis demonstrates better performance when compared to state-of-the-art RL techniques, showing a higher performance of 21.9%, 13.8%, and 8.3% in cloth folding tasks in simulation. Furthermore, to validate robustness, we evaluate the agent in a noisy environment; the results indicate its ability to handle and adapt to environmental uncertainties effectively. Real robot experiments are also conducted to showcase the efficiency of our method in real-world scenarios.

arxiv情報

著者 Wei Chen,Nicolas Rojas
発行日 2024-01-24 10:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク