Aether: Geometric-Aware Unified World Modeling

要約

幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAIシステムを開発する上で重要な課題のままです。
このペーパーでは、3つのコア機能を共同で最適化することにより、世界モデルでジオメトリを意識する推論を可能にする統一されたフレームワークであるAotherを提案します。
タスクインターレーブ機能学習を通じて、Aetherは再構築、予測、および計画目標を通じて相乗的な知識共有を実現します。
ビデオ生成モデルに基づいて、私たちのフレームワークは、トレーニング中に実際のデータを観察しないにもかかわらず、前例のない合成からリアルへの一般化を示しています。
さらに、私たちのアプローチは、本質的な幾何学的モデリングのおかげで、アクションフォローと再構成の両方のタスクでゼロショットの一般化を達成します。
驚くべきことに、実際のデータがなくても、その再構成パフォーマンスは、ドメイン固有のモデルのパフォーマンスと同等であるか、さらに優れています。
さらに、Aetherはカメラの軌跡を形状に基づいたアクションスペースとして採用し、効果的なアクションコンディショニングされた予測と視覚計画を可能にします。
私たちの仕事が、身体的に季節限定の世界モデリングとそのアプリケーションで新しいフロンティアを探索するようコミュニティに促すことを願っています。

要約(オリジナル)

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance is comparable with or even better than that of domain-specific models. Additionally, Aether employs camera trajectories as geometry-informed action spaces, enabling effective action-conditioned prediction and visual planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

arxiv情報

著者 Aether Team,Haoyi Zhu,Yifan Wang,Jianjun Zhou,Wenzheng Chang,Yang Zhou,Zizun Li,Junyi Chen,Chunhua Shen,Jiangmiao Pang,Tong He
発行日 2025-03-25 15:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク