Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

要約

2Dおよびマルチモーダルモデルの最近の進歩は、広範なデータセットでの大規模なトレーニングを活用することにより、驚くべき成功を収めています。
ただし、これらの成果を拡張して、複雑な3D/4Dシーンで自由形式の相互作用と高レベルのセマンティック操作を可能にします。
この難しさは、一般化可能なビジョンや迅速なセグメンテーション、言語誘導編集、視覚的質問(VQA)などの一般化可能なビジョンと言語タスクに不可欠な、大規模な注釈付き3D/4Dまたはマルチビューデータセットの利用可能性が限られています。
このホワイトペーパーでは、ユーザー生成コンテンツから広く入手できる単眼ビデオ入力のみを使用して、任意の機能を2D Vision Foundationモデルから4D領域に拡張するように設計されたUniversal Frameworkであるfeature4xを紹介します。
feature4xの「x」は汎用性を表し、適応可能なモデル条件付けされた4D機能フィールド蒸留を通じてタスクを可能にします。
フレームワークの中核は、複数のモデル機能を単一の表現に統合する動的な最適化戦略です。
さらに、私たちの知る限り、feature4xは、ビデオファンデーションモデル(sam2、internvideo2など)の機能をガウスのスプラッティングを使用して明示的な4D機能フィールドに蒸留および持ち上げる最初の方法です。
私たちの実験は、新しいビューセグメントであらゆるもの、幾何学的および外観シーンの編集、およびすべてのタイムステップにわたって自由形式のVQAを紹介します。
これらの進歩は、没入型ダイナミック4Dシーンインタラクションが可能なスケーラブル、コンテキスト、および空間的に認識しているシステムの基礎を提供することにより、エージェントAIアプリケーションの範囲を広げます。

要約(オリジナル)

Recent advancements in 2D and multimodal models have achieved remarkable success by leveraging large-scale training on extensive datasets. However, extending these achievements to enable free-form interactions and high-level semantic operations with complex 3D/4D scenes remains challenging. This difficulty stems from the limited availability of large-scale, annotated 3D/4D or multi-view datasets, which are crucial for generalizable vision and language tasks such as open-vocabulary and prompt-based segmentation, language-guided editing, and visual question answering (VQA). In this paper, we introduce Feature4X, a universal framework designed to extend any functionality from 2D vision foundation model into the 4D realm, using only monocular video input, which is widely available from user-generated content. The ‘X’ in Feature4X represents its versatility, enabling any task through adaptable, model-conditioned 4D feature field distillation. At the core of our framework is a dynamic optimization strategy that unifies multiple model capabilities into a single representation. Additionally, to the best of our knowledge, Feature4X is the first method to distill and lift the features of video foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field using Gaussian Splatting. Our experiments showcase novel view segment anything, geometric and appearance scene editing, and free-form VQA across all time steps, empowered by LLMs in feedback loops. These advancements broaden the scope of agentic AI applications by providing a foundation for scalable, contextually and spatiotemporally aware systems capable of immersive dynamic 4D scene interaction.

arxiv情報

著者 Shijie Zhou,Hui Ren,Yijia Weng,Shuwang Zhang,Zhen Wang,Dejia Xu,Zhiwen Fan,Suya You,Zhangyang Wang,Leonidas Guibas,Achuta Kadambi
発行日 2025-03-26 17:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク