要約
アクションの貢献に基づいて将来の結果に対するクレジットを適切に割り当てることは、強化学習における長年の未解決の課題です。
最も一般的に使用される単位割り当て方法の仮定は、決定の影響がすぐには明らかではないタスクでは不利です。
さらに、この方法はエージェントによって選択されたアクションしか評価できないため、非常に非効率的です。
それでも、代替方法はこの分野で広く採用されていません。
Hindsight Credit Assignment は有望ではありますが、まだ未開拓の候補であり、長期的な単位割り当てと事実に反する単位割り当ての問題の両方を解決することを目的としています。
この論文では、Hindsight Credit Assignment を実証的に調査し、その主な利点と改善すべき重要な点を特定します。
次に、それを因数分解された状態表現、特に環境の因果構造に基づいた状態表現に適用します。
この設定では、与えられた因果構造を効果的に利用する Hindsight Credit Assignment の変形を提案します。
私たちの修正により、Hindsight クレジット割り当ての作業負荷が大幅に軽減され、効率が向上し、さまざまなタスクでベースラインのクレジット割り当て方法を上回るパフォーマンスが得られることがわかります。
これにより、与えられた、または学習した因果構造に基づく他の方法への道が開かれます。
要約(オリジナル)
Adequately assigning credit to actions for future outcomes based on their contributions is a long-standing open challenge in Reinforcement Learning. The assumptions of the most commonly used credit assignment method are disadvantageous in tasks where the effects of decisions are not immediately evident. Furthermore, this method can only evaluate actions that have been selected by the agent, making it highly inefficient. Still, no alternative methods have been widely adopted in the field. Hindsight Credit Assignment is a promising, but still unexplored candidate, which aims to solve the problems of both long-term and counterfactual credit assignment. In this thesis, we empirically investigate Hindsight Credit Assignment to identify its main benefits, and key points to improve. Then, we apply it to factored state representations, and in particular to state representations based on the causal structure of the environment. In this setting, we propose a variant of Hindsight Credit Assignment that effectively exploits a given causal structure. We show that our modification greatly decreases the workload of Hindsight Credit Assignment, making it more efficient and enabling it to outperform the baseline credit assignment method on various tasks. This opens the way to other methods based on given or learned causal structures.
arxiv情報
著者 | Mátyás Schubert |
発行日 | 2023-05-17 12:27:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google