NetHack is Hard to Hack

要約

ニューラル ポリシー学習手法は、Atari ゲームから模擬移動に至るまで、さまざまな制御問題において顕著な成果を上げています。
ただし、これらの方法は、長期的なタスク、特に人気のダンジョン探索ゲームである NetHack など、マルチモーダルな観察を伴うオープンエンド環境では困難を伴います。
興味深いことに、NeurIPS 2021 NetHack Challenge では、シンボリック エージェントがゲーム スコア中央値でニューラル アプローチを 4 倍以上上回っていることが明らかになりました。
このペーパーでは、このパフォーマンス ギャップの背後にある理由を掘り下げ、NetHack のニューラル ポリシー学習に関する広範な研究を紹介します。
この研究を実施するために、我々は勝利したシンボリック エージェントを分析し、そのコードベースを拡張して内部戦略の選択を追跡し、利用可能な最大のデモンストレーション データセットの 1 つを生成します。
このデータセットを利用して、(i) アクション階層の利点を調べます。
(ii) ニューラル アーキテクチャの強化。
(iii) 強化学習と模倣学習の統合。
私たちの調査により、ゲーム スコアの中央値において、以前の完全なニューラル ポリシーをオフライン設定で 127%、オンライン設定で 25% 上回る最先端のニューラル エージェントが生成されました。
ただし、最高のシンボリック モデルや人間のトップ プレーヤーとのパフォーマンス ギャップを埋めるには、単なるスケーリングだけでは不十分であることも示しています。

要約(オリジナル)

Neural policy learning methods have achieved remarkable results in various control problems, ranging from Atari games to simulated locomotion. However, these methods struggle in long-horizon tasks, especially in open-ended environments with multi-modal observations, such as the popular dungeon-crawler game, NetHack. Intriguingly, the NeurIPS 2021 NetHack Challenge revealed that symbolic agents outperformed neural approaches by over four times in median game score. In this paper, we delve into the reasons behind this performance gap and present an extensive study on neural policy learning for NetHack. To conduct this study, we analyze the winning symbolic agent, extending its codebase to track internal strategy selection in order to generate one of the largest available demonstration datasets. Utilizing this dataset, we examine (i) the advantages of an action hierarchy; (ii) enhancements in neural architecture; and (iii) the integration of reinforcement learning with imitation learning. Our investigations produce a state-of-the-art neural agent that surpasses previous fully neural policies by 127% in offline settings and 25% in online settings on median game score. However, we also demonstrate that mere scaling is insufficient to bridge the performance gap with the best symbolic models or even the top human players.

arxiv情報

著者 Ulyana Piterbarg,Lerrel Pinto,Rob Fergus
発行日 2023-05-30 17:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク