4-LEGS: 4D Language Embedded Gaussian Splatting

要約

ニューラル表現の出現は、幅広い 3D シーンをデジタルで表示する手段に革命をもたらし、新しいビューからレンダリングされたフォトリアリスティックな画像の合成を可能にしました。
最近、これらの低レベル表現をシーン内に具体化された高レベルの意味論的理解と接続するためのいくつかの技術が提案されています。
これらの方法は、2D 画像から 3D 表現への豊かな意味の理解を高め、高次元の空間特徴を 3D 空間に抽出します。
私たちの仕事では、言語を世界の動的なモデリングと結び付けることに興味があります。
3D ガウス スプラッティングに基づいて時空間特徴を 4D 表現に引き上げる方法を示します。
これにより、ユーザーがテキスト プロンプトからビデオ内のイベントを時空間的に特定できる対話型インターフェイスが可能になります。
私たちは、さまざまなアクションを実行する人々や動物の公開 3D ビデオ データセット上でシステムをデモンストレーションします。

要約(オリジナル)

The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.

arxiv情報

著者 Gal Fiebelman,Tamir Cohen,Ayellet Morgenstern,Peter Hedman,Hadar Averbuch-Elor
発行日 2024-10-15 09:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク