要約
世界モデルは、環境をシミュレートし、効果的なエージェントの動作を可能にすることを目的としています。
ただし、実際の環境のモデリングは、空間と重要な時間の両方で動的に変化するため、独自の課題を提示します。
これらの構成されたダイナミクスをキャプチャするために、360度のパノラマ画像を豊富な相互接続された観測、状態、およびアクションノードに順応させるための時空間道路画像データセットを導入します。
この構造を活用すると、空間と時間の両方にわたるエゴセントリックビュー、位置座標、および移動コマンドの関係を同時にモデル化できます。
このデータセットは、ストライドで訓練された統一された自己回帰フレームワークを介して空間的および時間的ダイナミクスを統合するトランスベースの生成世界モデルであるTARDISを介してベンチマークします。
制御可能なフォトリアリスティックな画像合成、指示後の、自律的な自制心、最先端のジオレフェンスなど、さまざまなエージェントタスクにわたって堅牢なパフォーマンスを示します。
これらの結果は、具体化された推論能力を強化して、具体的な環境の空間的および時間的側面を理解し操作することができる洗練されたジェネラリストエージェントに対する有望な方向性を示唆しています。
トレーニングコード、データセット、およびモデルチェックポイントは、https://huggingface.co/datasets/tera-ai/strideで利用可能になります。
要約(オリジナル)
World models aim to simulate environments and enable effective agent behavior. However, modeling real-world environments presents unique challenges as they dynamically change across both space and, crucially, time. To capture these composed dynamics, we introduce a Spatio-Temporal Road Image Dataset for Exploration (STRIDE) permuting 360-degree panoramic imagery into rich interconnected observation, state and action nodes. Leveraging this structure, we can simultaneously model the relationship between egocentric views, positional coordinates, and movement commands across both space and time. We benchmark this dataset via TARDIS, a transformer-based generative world model that integrates spatial and temporal dynamics through a unified autoregressive framework trained on STRIDE. We demonstrate robust performance across a range of agentic tasks such as controllable photorealistic image synthesis, instruction following, autonomous self-control, and state-of-the-art georeferencing. These results suggest a promising direction towards sophisticated generalist agents–capable of understanding and manipulating the spatial and temporal aspects of their material environments–with enhanced embodied reasoning capabilities. Training code, datasets, and model checkpoints are made available at https://huggingface.co/datasets/Tera-AI/STRIDE.
arxiv情報
著者 | Héctor Carrión,Yutong Bai,Víctor A. Hernández Castro,Kishan Panaganti,Ayush Zenith,Matthew Trang,Tony Zhang,Pietro Perona,Jitendra Malik |
発行日 | 2025-06-18 15:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google