Dungeons and Data: A Large-Scale NetHack Dataset

要約

Go、StarCraft、DOTA などの困難な逐次意思決定問題を解決するためのエージェント開発における最近の画期的な進歩は、シミュレートされた環境と大規模なデータセットの両方に依存しています。
しかし、オープンソースのデータセットの不足と、それらを扱うための法外な計算コストによって、この研究の進歩は妨げられてきました。
ここでは、NetHack 学習データセット (NLD) を紹介します。これは、人気のあるゲーム NetHack の軌跡をまとめた、大規模で拡張性の高いデータセットです。これは、現在の手法にとって非常に困難であり、実行が非常に高速です。
NLD は 3 つの部分で構成されています。2009 年から 2020 年にかけて NAO パブリック NetHack サーバー上で収集された 150 万人の人間の軌跡からの 100 億の状態遷移。
NetHack Challenge 2021 のシンボリック ボットの優勝者から収集された 100,000 の軌跡からの 30 億の状態アクション スコアの遷移。
ユーザーがそのような軌跡のコレクションを高度に圧縮された形式で記録、ロード、ストリーミングするための付随コード。
私たちは、オンラインおよびオフラインの RL を含む幅広い既存のアルゴリズムを評価し、デモンストレーションから学習することで、困難な逐次意思決定タスクに大規模なデータセットを最大限に活用するには、大幅な研究の進歩が必要であることを示しています。

要約(オリジナル)

Recent breakthroughs in the development of agents to solve challenging sequential decision making problems such as Go, StarCraft, or DOTA, have relied on both simulated environments and large-scale datasets. However, progress on this research has been hindered by the scarcity of open-sourced datasets and the prohibitive computational cost to work with them. Here we present the NetHack Learning Dataset (NLD), a large and highly-scalable dataset of trajectories from the popular game of NetHack, which is both extremely challenging for current methods and very fast to run. NLD consists of three parts: 10 billion state transitions from 1.5 million human trajectories collected on the NAO public NetHack server from 2009 to 2020; 3 billion state-action-score transitions from 100,000 trajectories collected from the symbolic bot winner of the NetHack Challenge 2021; and, accompanying code for users to record, load and stream any collection of such trajectories in a highly compressed form. We evaluate a wide range of existing algorithms including online and offline RL, as well as learning from demonstrations, showing that significant research advances are needed to fully leverage large-scale datasets for challenging sequential decision making tasks.

arxiv情報

著者 Eric Hambro,Roberta Raileanu,Danielle Rothermel,Vegard Mella,Tim Rocktäschel,Heinrich Küttler,Naila Murray
発行日 2023-11-24 16:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク