Will GPT-4 Run DOOM?

要約

GPT-4 の推論と計画能力が 1993 年の一人称シューティング ゲーム Doom にまで拡張されていることを示します。
この大規模言語モデル (LLM) は、わずか数個の命令と、観察されているゲームの状態に関するテキストの説明 (スクリーンショットからモデル自体によって生成される) だけでゲームを実行およびプレイできます。
GPT-4 は、ドアを操作したり、敵と戦ったり、パスを実行したりすることができ、まずまずのレベルでゲームをプレイできることがわかりました。
複数のモデル呼び出しを伴うより複雑なプロンプト戦略により、より良い結果が得られます。
LLM が古典的な強化学習ベースのゲームと同様にゲームをプレイできるようにするにはさらなる作業が必要ですが、GPT-4 はトレーニングを必要とせず、代わりに独自の推論と観察能力に頼っていることに注目します。
私たちの取り組みが、ビデオ ゲームにおけるインテリジェントな LLM ベースのエージェントの限界を押し広げることを願っています。
最後に、私たちの仕事の倫理的影響について説明します。

要約(オリジナル)

We show that GPT-4’s reasoning and planning capabilities extend to the 1993 first-person shooter Doom. This large language model (LLM) is able to run and play the game with only a few instructions, plus a textual description–generated by the model itself from screenshots–about the state of the game being observed. We find that GPT-4 can play the game to a passable degree: it is able to manipulate doors, combat enemies, and perform pathing. More complex prompting strategies involving multiple model calls provide better results. While further work is required to enable the LLM to play the game as well as its classical, reinforcement learning-based counterparts, we note that GPT-4 required no training, leaning instead on its own reasoning and observational capabilities. We hope our work pushes the boundaries on intelligent, LLM-based agents in video games. We conclude by discussing the ethical implications of our work.

arxiv情報

著者 Adrian de Wynter
発行日 2024-03-08 17:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク