Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining

要約

オフライン強化学習データセットで事前トレーニングされた大規模なトランスフォーマー モデルは、目に見えない環境からのインタラクション軌跡を求められたときに適切な意思決定を行うことができる、優れたインコンテキスト強化学習 (ICRL) 機能を実証しました。
ただし、ICRL を実行するように変圧器をいつ、どのようにトレーニングできるかは、理論的には十分に理解されていません。
特に、トランスフォーマーがコンテキスト内でどの強化学習アルゴリズムを実行できるか、オフライン トレーニング データの分布の不一致が学習されたアルゴリズムにどのような影響を与えるかは不明です。
この論文は、ICRL の教師あり事前トレーニングを分析する理論的枠組みを提供します。
これには、最近提案された 2 つのトレーニング方法、アルゴリズム蒸留と決定事前トレーニング変換器が含まれます。
まず、モデルの実現可能性を仮定して、監視済み事前学習済み変換器が、観察された軌跡を考慮してエキスパート アルゴリズムの条件付き期待を模倣することを証明します。
一般化誤差は、モデルの容量と、エキスパート アルゴリズムとオフライン アルゴリズムの間の分散発散係数に応じて拡大します。
次に、ReLU アテンションを備えたトランスフォーマーが、確率的線形バンディットに対する LinUCB やトンプソン サンプリング、表形式のマルコフ決定プロセスに対する UCB-VI など、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示します。
これは、オフライン軌道から事前訓練されたトランスフォーマーの ICRL 機能の最初の定量的分析を提供します。

要約(オリジナル)

Large transformer models pretrained on offline reinforcement learning datasets have demonstrated remarkable in-context reinforcement learning (ICRL) capabilities, where they can make good decisions when prompted with interaction trajectories from unseen environments. However, when and how transformers can be trained to perform ICRL have not been theoretically well-understood. In particular, it is unclear which reinforcement-learning algorithms transformers can perform in context, and how distribution mismatch in offline training data affects the learned algorithms. This paper provides a theoretical framework that analyzes supervised pretraining for ICRL. This includes two recently proposed training methods — algorithm distillation and decision-pretrained transformers. First, assuming model realizability, we prove the supervised-pretrained transformer will imitate the conditional expectation of the expert algorithm given the observed trajectory. The generalization error will scale with model capacity and a distribution divergence factor between the expert and offline algorithms. Second, we show transformers with ReLU attention can efficiently approximate near-optimal online reinforcement learning algorithms like LinUCB and Thompson sampling for stochastic linear bandits, and UCB-VI for tabular Markov decision processes. This provides the first quantitative analysis of the ICRL capabilities of transformers pretrained from offline trajectories.

arxiv情報

著者 Licong Lin,Yu Bai,Song Mei
発行日 2023-10-12 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, math.ST, stat.ML, stat.TH パーマリンク