In-context Exploration-Exploitation for Reinforcement Learning

要約

インコンテキスト学習は、オフライン強化学習 (RL) 手法のオンライン ポリシー学習に対する有望なアプローチであり、勾配の最適化を行わずに推論時に実現できます。
ただし、この方法は、大規模なトレーニング軌跡セットの収集と大規模な Transformer モデルのトレーニングの必要性に起因する大幅な計算コストによって妨げられます。
私たちは、インコンテキストでのポリシー学習の効率を最適化するように設計されたインコンテキスト探査・活用 (ICEE) アルゴリズムを導入することで、この課題に対処します。
既存のモデルとは異なり、ICEE は、明示的なベイズ推論を必要とせずに、Transformer モデル内の推論時に探索と活用のトレードオフを実行します。
その結果、ICEE は、ガウスプロセスバイアス法と同じくらい効率的に、しかも大幅に短い時間でベイズ最適化問題を解決できます。
グリッド ワールド環境での実験を通じて、ICEE がわずか数十のエピソードを使用して新しい RL タスクを解決することを学習できることを実証し、以前のインコンテキスト学習方法で必要だった数百のエピソードに比べて大幅な改善を示しました。

要約(オリジナル)

In-context learning is a promising approach for online policy learning of offline reinforcement learning (RL) methods, which can be achieved at inference time without gradient optimization. However, this method is hindered by significant computational costs resulting from the gathering of large training trajectory sets and the need to train large Transformer models. We address this challenge by introducing an In-context Exploration-Exploitation (ICEE) algorithm, designed to optimize the efficiency of in-context policy learning. Unlike existing models, ICEE performs an exploration-exploitation trade-off at inference time within a Transformer model, without the need for explicit Bayesian inference. Consequently, ICEE can solve Bayesian optimization problems as efficiently as Gaussian process biased methods do, but in significantly less time. Through experiments in grid world environments, we demonstrate that ICEE can learn to solve new RL tasks using only tens of episodes, marking a substantial improvement over the hundreds of episodes needed by the previous in-context learning method.

arxiv情報

著者 Zhenwen Dai,Federico Tomasi,Sina Ghiassian
発行日 2024-03-11 15:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク