Curriculum-based Sensing Reduction in Simulation to Real-World Transfer for In-hand Manipulation

要約

Simulation to Real-World Transfer により、深層強化学習手法を使用した操作タスク用の学習ベースのロボットのトレーニングを手頃な価格で迅速に行うことができます。
現在、Sim2Real は非対称アクター – クリティカル アプローチを使用して、シミュレーション内の豊富な理想化された機能を現実世界でアクセス可能な機能に削減します。
ただし、シミュレーションから現実世界への特徴量の削減は、経験的に定義された 1 段階の削減を通じて実行されます。
小さな特徴削減ではアクターの特徴が十分に除去されず、依然として物理システムのセットアップが困難になる可能性がありますが、大きな特徴削減ではトレーニングが困難になり非効率になる可能性があります。
この問題に対処するために、私たちは、俳優が批評家と同じ豊富な特徴空間から始めて、抽出が難しい特徴を段階的に取り除くことができるようにする、カリキュラムベースのセンシング削減を提案しました。これにより、トレーニングのパフォーマンスが向上し、より良い結果が得られます。
現実世界の特徴空間への適応。
削減された特徴はディープ ランダム ジェネレーターからのランダム信号に置き換えられ、出力と削除された特徴の間の依存関係が削除され、新しい依存関係の作成が回避されます。
このメソッドは、現実世界のハンド操作タスクで Allegro ロボット ハンド上で評価されます。
結果は、私たちの方法はベースラインよりもトレーニングが速く、タスクのパフォーマンスが高く、選択された触覚機能が減少した場合でも現実世界のタスクを解決できることを示しています。

要約(オリジナル)

Simulation to Real-World Transfer allows affordable and fast training of learning-based robots for manipulation tasks using Deep Reinforcement Learning methods. Currently, Sim2Real uses Asymmetric Actor-Critic approaches to reduce the rich idealized features in simulation to the accessible ones in the real world. However, the feature reduction from the simulation to the real world is conducted through an empirically defined one-step curtail. Small feature reduction does not sufficiently remove the actor’s features, which may still cause difficulty setting up the physical system, while large feature reduction may cause difficulty and inefficiency in training. To address this issue, we proposed Curriculum-based Sensing Reduction to enable the actor to start with the same rich feature space as the critic and then get rid of the hard-to-extract features step-by-step for higher training performance and better adaptation for real-world feature space. The reduced features are replaced with random signals from a Deep Random Generator to remove the dependency between the output and the removed features and avoid creating new dependencies. The methods are evaluated on the Allegro robot hand in a real-world in-hand manipulation task. The results show that our methods have faster training and higher task performance than baselines and can solve real-world tasks when selected tactile features are reduced.

arxiv情報

著者 Lingfeng Tao,Jiucai Zhang,Qiaojie Zheng,Xiaoli Zhang
発行日 2023-09-13 23:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク