要約
鮮明に動的な環境内で没入型と無制限の探索を促進する、最初のエゴセントリックリアルな世界シミュレーターであるPlayerOneを紹介します。
ユーザーからのエゴセントリックシーン画像を考えると、PlayerOneは対応する世界を正確に構築し、エキソセントリックカメラによってキャプチャされたユーザーの実際のシーンの人間の動きと厳密に整合するエゴセントリックビデオを生成できます。
PlayerOneは、粗いレベルのエゴセントリックな理解のために最初に大規模なエゴセントリックなテキストビデオペアで最初に事前に導入する粗からファインのパイプラインで訓練され、その後、自動構造ピペリンを備えたエゴセントリックエキスコンセントリックビデオデータセットから抽出された同期モーションビデオデータで抽出されます。
その上、さまざまなコンポーネントのさまざまな重要性を考慮して、部品レベルの動きを正確に制御できるように、部分的に延期された動き噴射スキームを設計します。
さらに、4Dシーンとビデオフレームの両方を徐々にモデル化する共同再構成フレームワークを考案し、長期のビデオ生成のシーンの一貫性を確保します。
実験結果は、さまざまな人間の動きの正確な制御と、多様なシナリオの世界的なモデリングにおけるその大きな一般化能力を示しています。
エゴセントリックの実世界のシミュレーションへの最初の努力をマークし、コミュニティが世界モデリングの新鮮なフロンティアとその多様なアプリケーションを掘り下げる方法を開くことができます。
要約(オリジナル)
We introduce PlayerOne, the first egocentric realistic world simulator, facilitating immersive and unrestricted exploration within vividly dynamic environments. Given an egocentric scene image from the user, PlayerOne can accurately construct the corresponding world and generate egocentric videos that are strictly aligned with the real scene human motion of the user captured by an exocentric camera. PlayerOne is trained in a coarse-to-fine pipeline that first performs pretraining on large-scale egocentric text-video pairs for coarse-level egocentric understanding, followed by finetuning on synchronous motion-video data extracted from egocentric-exocentric video datasets with our automatic construction pipeline. Besides, considering the varying importance of different components, we design a part-disentangled motion injection scheme, enabling precise control of part-level movements. In addition, we devise a joint reconstruction framework that progressively models both the 4D scene and video frames, ensuring scene consistency in the long-form video generation. Experimental results demonstrate its great generalization ability in precise control of varying human movements and worldconsistent modeling of diverse scenarios. It marks the first endeavor into egocentric real-world simulation and can pave the way for the community to delve into fresh frontiers of world modeling and its diverse applications.
arxiv情報
著者 | Yuanpeng Tu,Hao Luo,Xi Chen,Xiang Bai,Fan Wang,Hengshuang Zhao |
発行日 | 2025-06-11 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google