Bigger, Better, Faster: Human-level Atari with human-level efficiency

要約

私たちは、Atari 100K ベンチマークで超人的なパフォーマンスを達成する、BBF と呼ばれる価値ベースの RL エージェントを導入します。
BBF は、値の推定に使用されるニューラル ネットワークのスケーリングと、サンプル効率の高い方法でこのスケーリングを可能にする他の多くの設計上の選択肢に依存しています。
私たちはこれらの設計上の選択について広範な分析を実施し、将来の作業のための洞察を提供します。
最後に、ALE でのサンプル効率の高い RL 研究のゴールポストの更新について説明します。
コードとデータは https://github.com/google-research/google-research/tree/master/bigger_better_faster で公開されています。

要約(オリジナル)

We introduce a value-based RL agent, which we call BBF, that achieves super-human performance in the Atari 100K benchmark. BBF relies on scaling the neural networks used for value estimation, as well as a number of other design choices that enable this scaling in a sample-efficient manner. We conduct extensive analyses of these design choices and provide insights for future work. We end with a discussion about updating the goalposts for sample-efficient RL research on the ALE. We make our code and data publicly available at https://github.com/google-research/google-research/tree/master/bigger_better_faster.

arxiv情報

著者 Max Schwarzer,Johan Obando-Ceron,Aaron Courville,Marc Bellemare,Rishabh Agarwal,Pablo Samuel Castro
発行日 2023-11-13 17:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク