Tactile Active Inference Reinforcement Learning for Efficient Robotic Manipulation Skill Acquisition

要約

ロボットによる操作は、退屈なタスクや危険なタスクの実行において人間に取って代わる可能性を秘めています。
ただし、制御ベースのアプローチは、現実のオープンワールド操作を形式的に記述するのが難しいことと、既存の学習方法が非効率であるため、適切ではありません。
したがって、幅広いシナリオに操作を適用すると、大きな課題が生じます。
本研究では、効率的な訓練の実現を目的として、ロボット操作における新たなスキル学習手法「触覚能動推論強化学習(Tactile-AIRL)」を提案する。
強化学習 (RL) のパフォーマンスを向上させるために、モデルベースの手法と本質的な好奇心を RL プロセスに統合する能動推論を導入します。
この統合により、アルゴリズムのトレーニング効率と、まばらな報酬への適応性が向上します。
さらに、視覚ベースの触覚センサーを利用して、操作タスクの詳細な認識を提供します。
最後に、モデルベースのアプローチを採用して、自由エネルギーの最小化を通じて適切な行動を想像し、計画します。
シミュレーション結果は、私たちの方法がタスクを押す非把握性オブジェクトにおいて非常に高いトレーニング効率を達成することを示しています。
これにより、エージェントはわずか数回のインタラクション エピソードで、報酬タスクの密集と疎の両方で優れたパフォーマンスを発揮できるようになり、SAC ベースラインを上回ります。
さらに、私たちの方法を使用してグリッパーねじ締めタスクの物理実験を行い、アルゴリズムの迅速な学習能力と実用的なアプリケーションの可能性を示します。

要約(オリジナル)

Robotic manipulation holds the potential to replace humans in the execution of tedious or dangerous tasks. However, control-based approaches are not suitable due to the difficulty of formally describing open-world manipulation in reality, and the inefficiency of existing learning methods. Thus, applying manipulation in a wide range of scenarios presents significant challenges. In this study, we propose a novel method for skill learning in robotic manipulation called Tactile Active Inference Reinforcement Learning (Tactile-AIRL), aimed at achieving efficient training. To enhance the performance of reinforcement learning (RL), we introduce active inference, which integrates model-based techniques and intrinsic curiosity into the RL process. This integration improves the algorithm’s training efficiency and adaptability to sparse rewards. Additionally, we utilize a vision-based tactile sensor to provide detailed perception for manipulation tasks. Finally, we employ a model-based approach to imagine and plan appropriate actions through free energy minimization. Simulation results demonstrate that our method achieves significantly high training efficiency in non-prehensile objects pushing tasks. It enables agents to excel in both dense and sparse reward tasks with just a few interaction episodes, surpassing the SAC baseline. Furthermore, we conduct physical experiments on a gripper screwing task using our method, which showcases the algorithm’s rapid learning capability and its potential for practical applications.

arxiv情報

著者 Zihao Liu,Xing Liu,Yizhai Zhang,Zhengxiong Liu,Panfeng Huang
発行日 2023-11-19 10:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク