CONTHER: Human-Like Contextual Robot Learning via Hindsight Experience Replay and Transformers without Expert Demonstrations

要約

この論文では、目標指向の操作タスクと障害物の回避のためにロボットエージェントを効率的かつ迅速に訓練するように設計された新しい強化学習アルゴリズムであるContherを紹介します。
このアルゴリズムは、後知恵のエクスペリエンス(彼女)のリプレイ(彼女)のアプローチにインスパイアされた修正されたリプレイバッファーを使用して、エクスペリエンスを成功させ、まばらな報酬シナリオの問題に効果的に対処し、専門家のデモンストレーションを手動で収集する必要性を排除します。
開発されたアルゴリズムは、以前の状態のコンテキストを組み込むためのトランスベースのアーキテクチャを提案し、エージェントがより深い分析を実行し、人間の学習に似た方法で決定を下すことができます。
「内部デモンストレーター」として機能するビルトインリプレイバッファーの有効性は2つあります。学習を加速し、アルゴリズムがさまざまなタスクに適応できるようにします。
経験的データは、他の考慮された方法よりも平均38.46%、最も成功したベースラインは28.21%でアルゴリズムの優位性を確認し、ポイントリーチングタスクの成功率が高く、収束が速くなります。
コントロールはロボットのジョイントを介して実行されるため、アルゴリズムは実際のロボットシステムへの潜在的な適応と障害物回避タスクの構築を促進します。
したがって、このアルゴリズムは、複雑な動的軌跡と障害物回避に従う必要があるタスクでもテストされています。
アルゴリズムの設計により、幅広い目標指向のタスクへの適用性が保証され、実際のロボット工学アプリケーション向けの簡単に統合されたソリューションになります。

要約(オリジナル)

This paper presents CONTHER, a novel reinforcement learning algorithm designed to efficiently and rapidly train robotic agents for goal-oriented manipulation tasks and obstacle avoidance. The algorithm uses a modified replay buffer inspired by the Hindsight Experience Replay (HER) approach to artificially populate experience with successful trajectories, effectively addressing the problem of sparse reward scenarios and eliminating the need to manually collect expert demonstrations. The developed algorithm proposes a Transformer-based architecture to incorporate the context of previous states, allowing the agent to perform a deeper analysis and make decisions in a manner more akin to human learning. The effectiveness of the built-in replay buffer, which acts as an ‘internal demonstrator’, is twofold: it accelerates learning and allows the algorithm to adapt to different tasks. Empirical data confirm the superiority of the algorithm by an average of 38.46% over other considered methods, and the most successful baseline by 28.21%, showing higher success rates and faster convergence in the point-reaching task. Since the control is performed through the robot’s joints, the algorithm facilitates potential adaptation to a real robot system and construction of an obstacle avoidance task. Therefore, the algorithm has also been tested on tasks requiring following a complex dynamic trajectory and obstacle avoidance. The design of the algorithm ensures its applicability to a wide range of goal-oriented tasks, making it an easily integrated solution for real-world robotics applications.

arxiv情報

著者 Maria Makarova,Qian Liu,Dzmitry Tsetserukou
発行日 2025-03-20 06:49:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク