Free Random Projection for In-Context Reinforcement Learning

要約

明示的な双曲線潜在表現とアーキテクチャによって示されるように、階層的な帰納的バイアスは、補強学習における一般化可能な政策を促進すると仮定されています。
したがって、より柔軟なアプローチは、これらのバイアスをアルゴリズムから自然に出現させることです。
階層構造が本質的に生じるランダムな直交行列を構築する自由確率理論に基づいた入力マッピングである自由ランダム投影を導入します。
自由なランダム投影は、明示的なアーキテクチャの変更を必要とせずに入力空間内で階層組織をエンコードすることにより、既存のコンテキスト内強化学習フレームワークにシームレスに統合します。
マルチ環境ベンチマークの経験的結果は、自由なランダム投影が標準のランダム投影を一貫して上回り、一般化の改善につながることを示しています。
さらに、線形溶媒和マルコフ決定プロセス内の分析と、カーネルランダムマトリックスのスペクトルの調査により、自由ランダム投影の強化されたパフォーマンスの理論的基盤が明らかになり、階層的に構造化された状態空間での効果的な適応能力が強調されています。

要約(オリジナル)

Hierarchical inductive biases are hypothesized to promote generalizable policies in reinforcement learning, as demonstrated by explicit hyperbolic latent representations and architectures. Therefore, a more flexible approach is to have these biases emerge naturally from the algorithm. We introduce Free Random Projection, an input mapping grounded in free probability theory that constructs random orthogonal matrices where hierarchical structure arises inherently. The free random projection integrates seamlessly into existing in-context reinforcement learning frameworks by encoding hierarchical organization within the input space without requiring explicit architectural modifications. Empirical results on multi-environment benchmarks show that free random projection consistently outperforms the standard random projection, leading to improvements in generalization. Furthermore, analyses within linearly solvable Markov decision processes and investigations of the spectrum of kernel random matrices reveal the theoretical underpinnings of free random projection’s enhanced performance, highlighting its capacity for effective adaptation in hierarchically structured state spaces.

arxiv情報

著者 Tomohiro Hayase,Benoît Collins,Nakamasa Inoue
発行日 2025-04-09 15:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク