要約
状態の良い表現を学習する能力は、探索、汎化、転移が特に困難な大規模な強化学習問題を解くために不可欠である。ラプラシアン表現は、時間的に拡張された行動発見と報酬形成のために、情報量の多い状態符号化と固有報酬を誘導することで、これらの問題に対処する有望なアプローチである。ラプラシアン表現を得るためには、グラフラプラシアンの固有系を計算する必要があるが、これはしばしばディープラーニングアプローチと互換性のある最適化目標によって近似される。しかし、これらの近似は、効率的に調整することが不可能なハイパーパラメータに依存し、所望の固有ベクトルの任意の回転に収束し、対応する固有値を正確に回復することができない。本論文では、ラプラシアン表現を近似するための、理論的に正しい目的と対応する最適化アルゴリズムを紹介する。我々のアプローチは、従来の近似に見られるハイパーパラメータ依存性を排除しつつ、真の固有ベクトルと固有値の両方を自然に復元する。我々の手法の理論的保証を提供し、その結果が経験的に複数の環境にわたる頑健な学習に変換されることを示す。
要約(オリジナル)
The ability to learn good representations of states is essential for solving large reinforcement learning problems, where exploration, generalization, and transfer are particularly challenging. The Laplacian representation is a promising approach to address these problems by inducing informative state encoding and intrinsic rewards for temporally-extended action discovery and reward shaping. To obtain the Laplacian representation one needs to compute the eigensystem of the graph Laplacian, which is often approximated through optimization objectives compatible with deep learning approaches. These approximations, however, depend on hyperparameters that are impossible to tune efficiently, converge to arbitrary rotations of the desired eigenvectors, and are unable to accurately recover the corresponding eigenvalues. In this paper we introduce a theoretically sound objective and corresponding optimization algorithm for approximating the Laplacian representation. Our approach naturally recovers both the true eigenvectors and eigenvalues while eliminating the hyperparameter dependence of previous approximations. We provide theoretical guarantees for our method and we show that those results translate empirically into robust learning across multiple environments.
arxiv情報
| 著者 | Diego Gomez,Michael Bowling,Marlos C. Machado |
| 発行日 | 2024-04-03 16:31:00+00:00 |
| arxivサイト | arxiv_id(pdf) |