Deep Reinforcement Learning with Swin Transformers

要約

トランスフォーマーは、複数の層の自己注意ヘッドを利用するニューラル ネットワーク モデルであり、自然言語処理タスクにおいて大きな可能性を示しています。
その一方で、Vision Transformers や Swin Transformers など、トランスフォーマーを機械学習の視覚タスクに適応させる取り組みが行われてきました。
一部の研究者は強化学習タスクに Vision Transformers を使用していますが、計算コストが高いため、実験は小規模にとどまっています。
この記事では、Swin Transformers に基づく最初のオンライン強化学習スキーム、Swin DQN を紹介します。
既存の研究とは対照的に、私たちの新しいアプローチは、アーケード学習環境での 49 ゲームの実験で優れたパフォーマンスを実証しました。
その結果、全 49 試合中 45 試合 (92%) で、我々のアプローチがベースライン手法よりも大幅に高い最大評価スコアを達成し、全 49 試合中 40 試合 (82%) でベースライン手法よりも高い平均評価スコアを達成したことが示されています。

要約(オリジナル)

Transformers are neural network models that utilize multiple layers of self-attention heads and have exhibited enormous potential in natural language processing tasks. Meanwhile, there have been efforts to adapt transformers to visual tasks of machine learning, including Vision Transformers and Swin Transformers. Although some researchers use Vision Transformers for reinforcement learning tasks, their experiments remain at a small scale due to the high computational cost. This article presents the first online reinforcement learning scheme that is based on Swin Transformers: Swin DQN. In contrast to existing research, our novel approach demonstrate the superior performance with experiments on 49 games in the Arcade Learning Environment. The results show that our approach achieves significantly higher maximal evaluation scores than the baseline method in 45 of all the 49 games (92%), and higher mean evaluation scores than the baseline method in 40 of all the 49 games (82%).

arxiv情報

著者 Li Meng,Morten Goodwin,Anis Yazidi,Paal Engelstad
発行日 2024-06-24 14:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク