Scaling Laws for Imitation Learning in NetHack

要約

模倣学習 (IL) は、機械学習で最も広く使用されている手法の 1 つです。
しかし、強力ではあるものの、多くの作品では、根底にある専門家の動作を完全には回復できないことが多いと感じています。
ただし、これらの研究はいずれも、モデルとデータ サイズのスケールアップの役割を深く調査していません。
「スケールアップ」により LLM の能力がますます向上している自然言語処理 (NLP) の最近の研究に触発され、モデルとデータ サイズを慎重にスケールアップすることで模倣学習設定にも同様の改善がもたらされるかどうかを調査します。
私たちの調査結果を実証するために、手続き型生成、確率性、長期的な依存関係、部分的な可観測性を特徴とする挑戦的な環境である NetHack のゲームに焦点を当てます。
IL 損失と平均リターン スケールがコンピューティング バジェットと滑らかに相関しており、強い相関関係があることがわかり、モデル サイズとサンプル数に関してコンピューティング最適な IL エージェントをトレーニングするためのべき乗則が得られます。
IL を使用して複数の NetHack エージェントを予測およびトレーニングしたところ、すべての設定で以前の最先端のものよりも少なくとも 2 倍優れたパフォーマンスを発揮することがわかりました。
私たちの研究は、挑戦的な領域における模倣学習のスケーリング動作と、現在の AI システムにとって依然としてとらえどころのないゲームである NetHack において、ますます有能なエージェント向けに現在のアプローチをスケールアップする可能性の両方を実証しています。

要約(オリジナル)

Imitation Learning (IL) is one of the most widely used methods in machine learning. Yet, while powerful, many works find it is often not able to fully recover the underlying expert behavior. However, none of these works deeply investigate the role of scaling up the model and data size. Inspired by recent work in Natural Language Processing (NLP) where ‘scaling up’ has resulted in increasingly more capable LLMs, we investigate whether carefully scaling up model and data size can bring similar improvements in the imitation learning setting. To demonstrate our findings, we focus on the game of NetHack, a challenging environment featuring procedural generation, stochasticity, long-term dependencies, and partial observability. We find IL loss and mean return scale smoothly with the compute budget and are strongly correlated, resulting in power laws for training compute-optimal IL agents with respect to model size and number of samples. We forecast and train several NetHack agents with IL and find they outperform prior state-of-the-art by at least 2x in all settings. Our work both demonstrates the scaling behavior of imitation learning in a challenging domain, as well as the viability of scaling up current approaches for increasingly capable agents in NetHack, a game that remains elusively hard for current AI systems.

arxiv情報

著者 Jens Tuyls,Dhruv Madeka,Kari Torkkola,Dean Foster,Karthik Narasimhan,Sham Kakade
発行日 2023-07-18 16:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク