要約
人工知能はロボット工学において重要な役割を果たしており、強化学習 (RL) はロボット制御の最も有望なアプローチの 1 つとして浮上しています。
しかし、いくつかの重要な課題がその広範な応用を妨げています。
まず、多くの RL 手法はオンライン学習に依存しており、これには現実世界のハードウェアまたは高度なシミュレーション環境が必要ですが、どちらもコストと時間がかかり、非現実的です。
オフライン強化学習は、物理的なロボットやシミュレーションに継続的にアクセスせずにモデルをトレーニングできるソリューションを提供します。
2 番目の課題は、ロボットが複数の目標を同時に達成する必要がある複数の目標タスクを学習することです。
モデルはさまざまな目標にわたって一般化する必要があるため、トレーニング プロセスがさらに複雑になります。
同時に、トランスフォーマー アーキテクチャは、強化学習を含むさまざまな分野で大きな人気を得ています。
しかし、オフライン トレーニング、複数目標学習、トランスフォーマー ベースのアーキテクチャを効果的に組み合わせた既存の方法はありません。
この論文では、ロボット工学におけるオフラインのマルチゴール強化学習にデシジョントランスフォーマーアーキテクチャを新たに適応させたものを導入することで、これらの課題に対処します。
私たちのアプローチは、目標固有の情報を意思決定トランスフォーマーに統合し、オフライン設定で複雑なタスクを処理できるようにします。
私たちの方法を検証するために、シミュレーションで Panda ロボット プラットフォームを使用して、新しいオフライン強化学習データセットを開発しました。
私たちの広範な実験により、意思決定変換器が最先端のオンライン強化学習手法を上回るパフォーマンスを発揮できることが実証されました。
要約(オリジナル)
Artificial intelligence plays a crucial role in robotics, with reinforcement learning (RL) emerging as one of the most promising approaches for robot control. However, several key challenges hinder its broader application. First, many RL methods rely on online learning, which requires either real-world hardware or advanced simulation environments–both of which can be costly, time-consuming, and impractical. Offline reinforcement learning offers a solution, enabling models to be trained without ongoing access to physical robots or simulations. A second challenge is learning multi-goal tasks, where robots must achieve multiple objectives simultaneously. This adds complexity to the training process, as the model must generalize across different goals. At the same time, transformer architectures have gained significant popularity across various domains, including reinforcement learning. Yet, no existing methods effectively combine offline training, multi-goal learning, and transformer-based architectures. In this paper, we address these challenges by introducing a novel adaptation of the decision transformer architecture for offline multi-goal reinforcement learning in robotics. Our approach integrates goal-specific information into the decision transformer, allowing it to handle complex tasks in an offline setting. To validate our method, we developed a new offline reinforcement learning dataset using the Panda robotic platform in simulation. Our extensive experiments demonstrate that the decision transformer can outperform state-of-the-art online reinforcement learning methods.
arxiv情報
| 著者 | Paul Gajewski,Dominik Żurek,Marcin Pietroń,Kamil Faber |
| 発行日 | 2024-10-08 20:35:30+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google