NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence Understanding

要約

4D 点群シーケンスをオンラインで理解することは、VR/AR、ロボット工学、自動運転などのさまざまなシナリオにおいて実用的に非常に価値があります。
主な目標は、非構造化で冗長な点群シーケンスが到着したときに、3D シーンのジオメトリとダイナミクスを継続的に分析することです。
そして、主な課題は、計算コストを管理可能に保ちながら、長期履歴を効果的にモデル化することです。
これらの課題に取り組むために、NSM4D と呼ばれる汎用オンライン 4D 認識パラダイムを導入します。
NSM4D は、既存の 4D バックボーンに適応できるプラグアンドプレイ戦略として機能し、屋内と屋外の両方のシナリオでのオンライン認識機能を大幅に強化します。
冗長な 4D 履歴を効率的に取得するために、ジオメトリとモーションの特徴を個別に保存するジオメトリ トークンを構築することで、ジオメトリとモーションの情報を因数分解するニューラル シーン モデルを提案します。
履歴の利用は、ニューラル シーン モデルをクエリするのと同じくらい簡単になります。
シーケンスが進行するにつれて、ニューラル シーン モデルは新しい観察に合わせて動的に変形し、効果的に歴史的コンテキストを提供し、新しい観察でモデル自体を更新します。
NSM4D は、トークン表現を採用することで、低レベルのセンサー ノイズに対する堅牢性も示し、幾何学的サンプリング スキームを通じてコン​​パクトなサイズを維持します。
NSM4D を最先端の 4D 認識バックボーンと統合し、屋内および屋外の設定におけるさまざまなオンライン認識ベンチマークの大幅な改善を実証します。
特に、HOI4D オンライン アクション セグメンテーションでは 9.6% の精度向上、SemanticKITTI オンライン セマンティック セグメンテーションでは 3.4% mIoU の向上を達成しています。
さらに、NSM4D が本質的にトレーニング セットを超える長いシーケンスに対して優れたスケーラビリティを提供することを示します。これは現実世界のアプリケーションにとって重要です。

要約(オリジナル)

Understanding 4D point cloud sequences online is of significant practical value in various scenarios such as VR/AR, robotics, and autonomous driving. The key goal is to continuously analyze the geometry and dynamics of a 3D scene as unstructured and redundant point cloud sequences arrive. And the main challenge is to effectively model the long-term history while keeping computational costs manageable. To tackle these challenges, we introduce a generic online 4D perception paradigm called NSM4D. NSM4D serves as a plug-and-play strategy that can be adapted to existing 4D backbones, significantly enhancing their online perception capabilities for both indoor and outdoor scenarios. To efficiently capture the redundant 4D history, we propose a neural scene model that factorizes geometry and motion information by constructing geometry tokens separately storing geometry and motion features. Exploiting the history becomes as straightforward as querying the neural scene model. As the sequence progresses, the neural scene model dynamically deforms to align with new observations, effectively providing the historical context and updating itself with the new observations. By employing token representation, NSM4D also exhibits robustness to low-level sensor noise and maintains a compact size through a geometric sampling scheme. We integrate NSM4D with state-of-the-art 4D perception backbones, demonstrating significant improvements on various online perception benchmarks in indoor and outdoor settings. Notably, we achieve a 9.6% accuracy improvement for HOI4D online action segmentation and a 3.4% mIoU improvement for SemanticKITTI online semantic segmentation. Furthermore, we show that NSM4D inherently offers excellent scalability to longer sequences beyond the training set, which is crucial for real-world applications.

arxiv情報

著者 Yuhao Dong,Zhuoyang Zhang,Yunze Liu,Li Yi
発行日 2023-10-12 13:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク