Supervised Pretraining Can Learn In-Context Reinforcement Learning

要約

多様なデータセットでトレーニングされた大規模なトランスフォーマー モデルは、コンテキスト内で学習する優れた能力を示し、解決するために明示的にトレーニングされていないタスクで高い少数ショット パフォーマンスを達成しました。
この論文では、意思決定問題におけるトランスフォーマーのコンテキスト内学習能力、つまりバンディットとマルコフ意思決定プロセスの強化学習 (RL) を研究します。
そのために、私たちは、クエリ状態とインタラクションのコンテキスト内データセットを考慮して、さまざまなタスクにわたって最適なアクションを予測する教師あり事前トレーニング手法である決定事前トレーニング トランスフォーマー (DPT) を導入して研究します。
この手順は単純ですが、いくつかの驚くべき機能を備えたモデルを作成します。
事前トレーニングされたトランスフォーマーは、そのように明示的にトレーニングされていないにもかかわらず、コンテキスト内でさまざまな RL 問題を解決するために使用でき、オンラインでの探索とオフラインでの保守主義の両方を示すことができることがわかりました。
また、このモデルは、事前トレーニングの分布を超えて新しいタスクに一般化され、意思決定戦略を未知の構造に自動的に適応させます。
理論的には、DPT がベイズ事後サンプリング (サンプル効率が高いことが証明されている RL アルゴリズム) の効率的な実装と見なすことができることを示します。
さらに、この接続を利用して、DPT によって生成されるインコンテキスト アルゴリズムのリグレスに対する保証を提供し、事前トレーニング データの生成に使用されるアルゴリズムよりも高速に学習できることを証明します。
これらの結果は、コンテキストに応じた強力な意思決定能力を変圧器に浸透させるための有望かつ簡単な道を示唆しています。

要約(オリジナル)

Large transformer models trained on diverse datasets have shown a remarkable ability to learn in-context, achieving high few-shot performance on tasks they were not explicitly trained to solve. In this paper, we study the in-context learning capabilities of transformers in decision-making problems, i.e., reinforcement learning (RL) for bandits and Markov decision processes. To do so, we introduce and study Decision-Pretrained Transformer (DPT), a supervised pretraining method where the transformer predicts an optimal action given a query state and an in-context dataset of interactions, across a diverse set of tasks. This procedure, while simple, produces a model with several surprising capabilities. We find that the pretrained transformer can be used to solve a range of RL problems in-context, exhibiting both exploration online and conservatism offline, despite not being explicitly trained to do so. The model also generalizes beyond the pretraining distribution to new tasks and automatically adapts its decision-making strategies to unknown structure. Theoretically, we show DPT can be viewed as an efficient implementation of Bayesian posterior sampling, a provably sample-efficient RL algorithm. We further leverage this connection to provide guarantees on the regret of the in-context algorithm yielded by DPT, and prove that it can learn faster than algorithms used to generate the pretraining data. These results suggest a promising yet simple path towards instilling strong in-context decision-making abilities in transformers.

arxiv情報

著者 Jonathan N. Lee,Annie Xie,Aldo Pacchiano,Yash Chandak,Chelsea Finn,Ofir Nachum,Emma Brunskill
発行日 2023-06-26 17:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク