Transforming Game Play: A Comparative Study of DCQN and DTQN Architectures in Reinforcement Learning

要約

この研究では、3 つの異なる Atari ゲームにわたって畳み込みニューラル ネットワーク (CNN) と Transformer アーキテクチャを利用した Deep Q-Networks のパフォーマンスを調査します。
DQN の出現により強化学習が大幅に進歩し、エージェントがピクセルまたは RAM データからの高次元の感覚入力から最適なポリシーを直接学習できるようになりました。
CNN ベースの DQN は広範囲に研究され、さまざまなドメインに導入されていますが、Transformer ベースの DQN は比較的未調査です。
私たちの研究は、Atari ゲームである Asteroids、Space Invaders、Centipede における DCQN と DTQN の両方のパフォーマンスをベンチマークすることで、このギャップを埋めることを目的としています。
3,500 万から 4,000 万のパラメータ範囲では、ViT アーキテクチャと投影アーキテクチャの両方で DCQN が DTQN よりも速度が優れていることがわかります。
また、Centipede を除くすべてのゲームで DCQN が DTQN よりも優れていることがわかります。

要約(オリジナル)

In this study, we investigate the performance of Deep Q-Networks utilizing Convolutional Neural Networks (CNNs) and Transformer architectures across three different Atari games. The advent of DQNs has significantly advanced Reinforcement Learning, enabling agents to directly learn optimal policies from high-dimensional sensory inputs from pixel or RAM data. While CNN-based DQNs have been extensively studied and deployed in various domains, Transformer-based DQNs are relatively unexplored. Our research aims to fill this gap by benchmarking the performance of both DCQNs and DTQNs across the Atari games Asteroids, Space Invaders, and Centipede. We find that in the 35-40 million parameter range, the DCQN outperforms the DTQN in speed across both ViT and Projection Architectures. We also find the DCQN outperforms the DTQN in all games except for Centipede.

arxiv情報

著者 William A. Stigall
発行日 2024-10-14 16:08:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク