要約
この研究では、複雑な動きと指間の調整が必要な、学習ベースの 3 本指ロボット アーム操作タスクを調査します。
強化学習を採用することで、エージェントが熟練した操作に必要なスキルを習得できるように訓練します。
学習プロセスの効率と有効性を高めるために、ソフト アクター – クリティカル アーキテクチャ内で、微調整とカリキュラム学習という 2 つの知識伝達戦略が利用されました。
微調整により、エージェントは事前トレーニングされた知識を活用し、それを新しいタスクに適応させることができます。
モデル転送、ポリシー転送、タスク間転送などのいくつかのバリエーションが実装され、評価されました。
事前トレーニングの必要性を排除するために、カリキュラム学習では、人間の学習方法を反映して、高度なタスクをより単純で漸進的な段階に分解します。
学習ステージの数、サブタスクのコンテキスト、および移行タイミングが重要な設計パラメーターであることがわかりました。
2 つの学習戦略の重要な要素とそれに対応する効果が、コンテキスト認識シナリオとコンテキスト非認識シナリオで調査されたため、メソッドが最適なパフォーマンスを発揮し、決定的な洞察を導き出し、より広範囲の学習ベースのエンジニアリングに貢献するシナリオを特定できるようになりました。
アプリケーション。
要約(オリジナル)
This study explores a learning-based tri-finger robotic arm manipulating task, which requires complex movements and coordination among the fingers. By employing reinforcement learning, we train an agent to acquire the necessary skills for proficient manipulation. To enhance the efficiency and effectiveness of the learning process, two knowledge transfer strategies, fine-tuning and curriculum learning, were utilized within the soft actor-critic architecture. Fine-tuning allows the agent to leverage pre-trained knowledge and adapt it to new tasks. Several variations like model transfer, policy transfer, and across-task transfer were implemented and evaluated. To eliminate the need for pretraining, curriculum learning decomposes the advanced task into simpler, progressive stages, mirroring how humans learn. The number of learning stages, the context of the sub-tasks, and the transition timing were found to be the critical design parameters. The key factors of two learning strategies and corresponding effects were explored in context-aware and context-unaware scenarios, enabling us to identify the scenarios where the methods demonstrate optimal performance, derive conclusive insights, and contribute to a broader range of learning-based engineering applications.
arxiv情報
著者 | Xinrui Wang,Yan Jin |
発行日 | 2024-03-25 23:19:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google