要約
人間は 3D 世界に住んでおり、通常は自然言語を使用して 3D シーンと対話します。
3D でのオープンエンド言語クエリをサポートするために 3D 言語フィールドをモデル化することは、最近ますます注目を集めています。
このペーパーでは、3D 空間内で正確かつ効率的なオープン語彙クエリを可能にする 3D 言語フィールドを構築する LangSplat を紹介します。
NeRF モデルに CLIP 言語埋め込みを基盤とする既存の方法とは異なり、LangSplat は、言語フィールドを表すために、CLIP から抽出された各エンコード言語の特徴である 3D ガウスのコレクションを利用することによってこの分野を前進させます。
言語機能のレンダリングにタイルベースのスプラッティング手法を採用することで、NeRF に固有のコストのかかるレンダリング プロセスを回避します。
CLIP 埋め込みを直接学習する代わりに、LangSplat は最初にシーンごとの言語オートエンコーダーをトレーニングし、次にシーン固有の潜在空間で言語特徴を学習します。これにより、明示的モデリングによって課される大幅なメモリ要求が軽減されます。
既存の方法は、オブジェクト間の明確な境界を識別できない、不正確で曖昧な 3D 言語フィールドに苦戦しています。
私たちはこの問題を詳しく調査し、SAM を使用して階層的セマンティクスを学習することを提案します。これにより、さまざまなスケールで言語フィールドを広範にクエリしたり、DINO 機能を正規化したりする必要がなくなります。
広範な実験結果は、LangSplat が以前の最先端の手法 LERF を大幅に上回るパフォーマンスを示していることを示しています。
特に、LangSplat は非常に効率的であり、解像度 1440 $\times$ 1080 で LERF と比較して 199 $\times$ の高速化を達成しています。読者には https://langsplat.github.io/ でビデオ結果をチェックすることを強くお勧めします。
要約(オリジナル)
Humans live in a 3D world and commonly use natural language to interact with a 3D scene. Modeling a 3D language field to support open-ended language queries in 3D has gained increasing attention recently. This paper introduces LangSplat, which constructs a 3D language field that enables precise and efficient open-vocabulary querying within 3D spaces. Unlike existing methods that ground CLIP language embeddings in a NeRF model, LangSplat advances the field by utilizing a collection of 3D Gaussians, each encoding language features distilled from CLIP, to represent the language field. By employing a tile-based splatting technique for rendering language features, we circumvent the costly rendering process inherent in NeRF. Instead of directly learning CLIP embeddings, LangSplat first trains a scene-wise language autoencoder and then learns language features on the scene-specific latent space, thereby alleviating substantial memory demands imposed by explicit modeling. Existing methods struggle with imprecise and vague 3D language fields, which fail to discern clear boundaries between objects. We delve into this issue and propose to learn hierarchical semantics using SAM, thereby eliminating the need for extensively querying the language field across various scales and the regularization of DINO features. Extensive experimental results show that LangSplat significantly outperforms the previous state-of-the-art method LERF by a large margin. Notably, LangSplat is extremely efficient, achieving a 199 $\times$ speedup compared to LERF at the resolution of 1440 $\times$ 1080. We strongly recommend readers to check out our video results at https://langsplat.github.io/
arxiv情報
著者 | Minghan Qin,Wanhua Li,Jiawei Zhou,Haoqian Wang,Hanspeter Pfister |
発行日 | 2024-03-31 04:45:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google