Continual Policy Distillation of Reinforcement Learning-based Controllers for Soft Robotic In-Hand Manipulation

要約

多くの場合、多指のロボットハンドによって容易になる器用な操作は、現実世界のアプリケーションに確かな影響を与えます。
柔らかいロボットハンドは、その従順な性質により、物体を掴んだり操作したりする際に柔軟性と適応性をもたらします。
しかし、特に指の調整のための制御開発においては、利点には課題も伴います。
強化学習 (RL) を使用して、オブジェクト固有のハンド操作ポリシーをトレーニングすることができますが、適応性と一般化性は制限されます。
継続的ポリシー蒸留 (CPD) フレームワークを導入して、手で操作するための多用途コントローラーを取得し、4 本指のソフト グリッパー内で形状やサイズの異なるオブジェクトを回転させます。
このフレームワークは、ポリシー蒸留 (PD) を活用して、専門家のポリシーから継続的に進化する学生ポリシー ネットワークに知識を転送します。
その後、模範ベースのリハーサル方法が統合され、壊滅的な忘却が軽減され、一般化が強化されます。
さまざまな再生戦略に対する CPD フレームワークのパフォーマンスは、複数の専門家からの知識を統合し、手元の操作タスクで多用途かつ適応的な動作を実現する際の CPD フレームワークの有効性を示しています。

要約(オリジナル)

Dexterous manipulation, often facilitated by multi-fingered robotic hands, holds solid impact for real-world applications. Soft robotic hands, due to their compliant nature, offer flexibility and adaptability during object grasping and manipulation. Yet, benefits come with challenges, particularly in the control development for finger coordination. Reinforcement Learning (RL) can be employed to train object-specific in-hand manipulation policies, but limiting adaptability and generalizability. We introduce a Continual Policy Distillation (CPD) framework to acquire a versatile controller for in-hand manipulation, to rotate different objects in shape and size within a four-fingered soft gripper. The framework leverages Policy Distillation (PD) to transfer knowledge from expert policies to a continually evolving student policy network. Exemplar-based rehearsal methods are then integrated to mitigate catastrophic forgetting and enhance generalization. The performance of the CPD framework over various replay strategies demonstrates its effectiveness in consolidating knowledge from multiple experts and achieving versatile and adaptive behaviours for in-hand manipulation tasks.

arxiv情報

著者 Lanpei Li,Enrico Donato,Vincenzo Lomonaco,Egidio Falotico
発行日 2024-04-05 17:05:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク