4-LEGS: 4D Language Embedded Gaussian Splatting

要約

神経表現の出現は、幅広い3Dシーンをデジタル的に表示するための私たちの手段に革命をもたらし、新しい視野からレンダリングされたフォトリアリスティックな画像の統合を可能にしました。
最近、これらの低レベルの表現をシーン内で具体化した高レベルのセマンティクス理解と接続するためのいくつかの手法が提案されています。
これらの方法は、豊富なセマンティック理解を2D画像から3D表現に向上させ、高次元空間機能を3D空間に蒸留します。
私たちの仕事では、言語を世界の動的なモデリングと結び付けることに興味があります。
3Dガウスのスプラッティングに基づいて、時空間的特徴を4D表現に持ち上げる方法を示します。
これにより、ユーザーがテキストプロンプトからビデオ内のイベントを空間的にローカライズできるインタラクティブなインターフェイスが可能になります。
さまざまなアクションを実行している人や動物の公開3Dビデオデータセットでシステムを示します。

要約(オリジナル)

The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.

arxiv情報

著者 Gal Fiebelman,Tamir Cohen,Ayellet Morgenstern,Peter Hedman,Hadar Averbuch-Elor
発行日 2025-02-13 16:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク