要約
私たちは、一人称視点と三人称視点の両方でリアルタイムで応答性の高い制御を備えた連続 720p 高忠実度のリアルシーン ビデオ ストリームを生成できる初の基礎的なリアル ワールド シミュレーターであるマトリックスを紹介し、豊かでダイナミックな環境の没入型探索を可能にします。
Forza Horizon 5 や Cyberpunk 2077 などの AAA ゲームからの限られた教師付きデータでトレーニングされ、東京の街路などの現実世界の設定からの大規模な教師なし映像で補完されたマトリックスにより、ユーザーは砂漠、草原、水域などの多様な地形を横断することができます。
都市の風景 — 連続したノーカットの 1 時間のシーケンス。
16 FPS で動作するこのシステムは、リアルタイムの対話性をサポートし、ゼロショットの一般化を実証し、継続的な動きデータの収集がしばしば実行不可能な仮想ゲーム環境を現実世界のコンテキストに変換します。
たとえば、The Matrix は、オフィス環境、つまりゲーム データにも現実世界のソースにも存在しない環境で BMW X3 の運転をシミュレートできます。
このアプローチは、AAA ゲーム データが堅牢な世界モデルを発展させ、データが限られたシナリオでのシミュレーションと現実世界のアプリケーションの間のギャップを埋める可能性を示しています。
要約(オリジナル)
We present The Matrix, the first foundational realistic world simulator capable of generating continuous 720p high-fidelity real-scene video streams with real-time, responsive control in both first- and third-person perspectives, enabling immersive exploration of richly dynamic environments. Trained on limited supervised data from AAA games like Forza Horizon 5 and Cyberpunk 2077, complemented by large-scale unsupervised footage from real-world settings like Tokyo streets, The Matrix allows users to traverse diverse terrains — deserts, grasslands, water bodies, and urban landscapes — in continuous, uncut hour-long sequences. Operating at 16 FPS, the system supports real-time interactivity and demonstrates zero-shot generalization, translating virtual game environments to real-world contexts where collecting continuous movement data is often infeasible. For example, The Matrix can simulate a BMW X3 driving through an office setting–an environment present in neither gaming data nor real-world sources. This approach showcases the potential of AAA game data to advance robust world models, bridging the gap between simulations and real-world applications in scenarios with limited data.
arxiv情報
著者 | Ruili Feng,Han Zhang,Zhantao Yang,Jie Xiao,Zhilei Shu,Zhiheng Liu,Andy Zheng,Yukun Huang,Yu Liu,Hongyang Zhang |
発行日 | 2024-12-04 18:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google