History Compression via Language Models in Reinforcement Learning

要約

部分的に観測可能なマルコフ決定過程 (POMDP) では、エージェントは通常、過去の表現を使用して、基礎となる MDP を概算します。
サンプルの効率を向上させるために、履歴表現と圧縮に凍結された Pretrained Language Transformer (PLT) を利用することを提案します。
Transformer のトレーニングを回避するために、FrozenHopfield を導入します。これは、観測を事前トレーニング済みのトークン埋め込みに自動的に関連付けます。
これらの関連付けを形成するために、最新のホップフィールド ネットワークはこれらのトークン埋め込みを格納します。これは、観測のランダムではあるが固定された投影によって取得されるクエリによって取得されます。
私たちの新しい方法である HELM は、履歴表現用の事前トレーニング済み言語 Transformer をメモリ モジュールとして含むアクター クリティック ネットワーク アーキテクチャを可能にします。
過去の表現を学習する必要がないため、HELM は競合他社よりもサンプル効率がはるかに優れています。
Minigrid および Procgen 環境では、HELM は新しい最先端の結果を達成します。
コードは https://github.com/ml-jku/helm で入手できます。

要約(オリジナル)

In a partially observable Markov decision process (POMDP), an agent typically uses a representation of the past to approximate the underlying MDP. We propose to utilize a frozen Pretrained Language Transformer (PLT) for history representation and compression to improve sample efficiency. To avoid training of the Transformer, we introduce FrozenHopfield, which automatically associates observations with pretrained token embeddings. To form these associations, a modern Hopfield network stores these token embeddings, which are retrieved by queries that are obtained by a random but fixed projection of observations. Our new method, HELM, enables actor-critic network architectures that contain a pretrained language Transformer for history representation as a memory module. Since a representation of the past need not be learned, HELM is much more sample efficient than competitors. On Minigrid and Procgen environments HELM achieves new state-of-the-art results. Our code is available at https://github.com/ml-jku/helm.

arxiv情報

著者 Fabian Paischer,Thomas Adler,Vihang Patil,Angela Bitto-Nemling,Markus Holzleitner,Sebastian Lehner,Hamid Eghbal-zadeh,Sepp Hochreiter
発行日 2023-02-21 12:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク