要約
ゲーム エンジンは、コンピューター グラフィックスの強力なツールです。
彼らの力は、彼らの開発に莫大な費用をかけてもたらされます。
この作業では、単眼の注釈付きビデオのみから、ゲーム エンジンのようなニューラル モデルをトレーニングするためのフレームワークを提示します。
その結果、学習可能なゲーム エンジン (LGE) は、シーン、オブジェクト、およびエージェントの状態を維持し、制御可能な視点から環境をレンダリングできるようにします。
ゲーム エンジンと同様に、ゲームのロジックと基本的な物理法則をモデル化し、ユーザーが高レベルと低レベルの両方のアクション シーケンスを指定してゲームをプレイできるようにします。
最も魅力的なのは、私たちの LGE がディレクターズ モードのロックを解除することです。このモードでは、言語と望ましい状態の形でエージェントの高レベルのアクションと目標を指定して、舞台裏でプロットすることによってゲームがプレイされます。
これには、高レベルの制約を使用してシーンをナビゲートし、敵と対戦し、ポイントを獲得するための戦略を考案するために、アニメーション モデルによってカプセル化された「ゲーム AI」を学習する必要があります。
このようなゲーム AI を学習するための鍵は、この作業で収集され、ゲーム内の詳細なアクションを記述し、アニメーション モデルのトレーニングに使用される大規模で多様なテキスト コーパスを活用することです。
環境とそのエージェントの結果の状態をレンダリングするために、合成モデルで使用される合成 NeRF 表現を使用します。
将来の研究を促進するために、新しく収集され、注釈が付けられ、調整された大規模なテニスとマインクラフトのデータセットを提示します。
私たちの方法は、レンダリング品質の点で、既存のニューラル ビデオ ゲーム シミュレーターよりも大幅に優れています。
さらに、当社の LGE は、現在の最先端の機能を超えたアプリケーションのロックを解除します。
私たちのフレームワーク、データ、およびモデルは、https://learnable-game-engines.github.io/lge-website で入手できます。
要約(オリジナル)
Game engines are powerful tools in computer graphics. Their power comes at the immense cost of their development. In this work, we present a framework to train game-engine-like neural models, solely from monocular annotated videos. The result-a Learnable Game Engine (LGE)-maintains states of the scene, objects and agents in it, and enables rendering the environment from a controllable viewpoint. Similarly to a game engine, it models the logic of the game and the underlying rules of physics, to make it possible for a user to play the game by specifying both high- and low-level action sequences. Most captivatingly, our LGE unlocks the director’s mode, where the game is played by plotting behind the scenes, specifying high-level actions and goals for the agents in the form of language and desired states. This requires learning ‘game AI’, encapsulated by our animation model, to navigate the scene using high-level constraints, play against an adversary, devise the strategy to win a point. The key to learning such game AI is the exploitation of a large and diverse text corpus, collected in this work, describing detailed actions in a game and used to train our animation model. To render the resulting state of the environment and its agents, we use a compositional NeRF representation used in our synthesis model. To foster future research, we present newly collected, annotated and calibrated large-scale Tennis and Minecraft datasets. Our method significantly outperforms existing neural video game simulators in terms of rendering quality. Besides, our LGEs unlock applications beyond capabilities of the current state of the art. Our framework, data, and models are available at https://learnable-game-engines.github.io/lge-website.
arxiv情報
著者 | Willi Menapace,Aliaksandr Siarohin,Stéphane Lathuilière,Panos Achlioptas,Vladislav Golyanik,Elisa Ricci,Sergey Tulyakov |
発行日 | 2023-03-23 17:43:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google