要約
新しいタスクに効果的に一般化する強化学習エージェントを作成することは、AI 研究における重要な課題です。
この論文では、困難な汎化タスクで最先端のパフォーマンスを達成するマルチレベル階層型強化学習手法である Fracture Cluster Options (FraCOs) を紹介します。
FraCOs は、エージェントの行動パターンを特定し、それらのパターンの将来の有用性の予想に基づいてオプションを形成し、新しいタスクへの迅速な適応を可能にします。
表形式の設定では、FraCOs は効果的な転送を示し、階層の深さが増すにつれてパフォーマンスが向上します。
私たちは、いくつかの複雑な手続き的に生成された環境で、最先端の深層強化学習アルゴリズムに対して FraCO を評価します。
私たちの結果は、FraCO が競合他社よりも高いディストリビューション内およびディストリビューション外のパフォーマンスを達成していることを示しています。
要約(オリジナル)
Creating reinforcement learning agents that generalise effectively to new tasks is a key challenge in AI research. This paper introduces Fracture Cluster Options (FraCOs), a multi-level hierarchical reinforcement learning method that achieves state-of-the-art performance on difficult generalisation tasks. FraCOs identifies patterns in agent behaviour and forms options based on the expected future usefulness of those patterns, enabling rapid adaptation to new tasks. In tabular settings, FraCOs demonstrates effective transfer and improves performance as it grows in hierarchical depth. We evaluate FraCOs against state-of-the-art deep reinforcement learning algorithms in several complex procedurally generated environments. Our results show that FraCOs achieves higher in-distribution and out-of-distribution performance than competitors.
arxiv情報
著者 | Thomas P Cannon,Özgür Simsek |
発行日 | 2024-11-25 16:41:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google