要約
点群ビデオ表現の学習は、複雑な構造と規則性のない空間配置により困難です。
従来の方法では、フレーム間の相関や点ごとの対応追跡に苦労しています。
最近、偏微分方程式 (PDE) は、特定の制約内で時空間データ情報を均一に解く際の新しい視点を提供しています。
有形の点の対応を追跡することは依然として困難ですが、点群ビデオ表現の学習を PDE 解決問題として形式化することを提案します。
PDE を使用して時間の経過に伴う空間形状の変形を解決する流体解析からインスピレーションを受け、PDE を使用して時間情報の影響を受ける空間点の変動を解決します。
時空間相関をモデル化することで、時間的特徴による空間変動を正規化し、それによって点群ビデオでの表現学習を強化することを目指しています。
PointNet のようなエンコーダーと PDE 解決モジュールで構成される Motion PointNet を紹介します。
最初に、空間変動の初期状態をモデル化するために、軽量でありながら効果的なエンコーダーを構築します。
続いて、点群ビデオに固有の時空間相関に対処するために調整された、パラメーター化された潜在空間で PDE 解決モジュールを開発します。
PDE を解くプロセスは、特徴分布を再形成する上で極めて重要な対照的な学習構造によって導かれ、洗練され、それによって点群ビデオ データ内の特徴表現が最適化されます。
驚くべきことに、当社の Motion PointNet は MSRAction-3D データセット上で 97.52% という驚異的な精度を達成し、最小限のリソース (わずか 0.72M パラメータと 0.82G FLOP) を消費しながら、あらゆる面で現在の最先端技術を上回っています。
要約(オリジナル)
Point cloud video representation learning is challenging due to complex structures and unordered spatial arrangement. Traditional methods struggle with frame-to-frame correlations and point-wise correspondence tracking. Recently, partial differential equations (PDE) have provided a new perspective in uniformly solving spatial-temporal data information within certain constraints. While tracking tangible point correspondence remains challenging, we propose to formalize point cloud video representation learning as a PDE-solving problem. Inspired by fluid analysis, where PDEs are used to solve the deformation of spatial shape over time, we employ PDE to solve the variations of spatial points affected by temporal information. By modeling spatial-temporal correlations, we aim to regularize spatial variations with temporal features, thereby enhancing representation learning in point cloud videos. We introduce Motion PointNet composed of a PointNet-like encoder and a PDE-solving module. Initially, we construct a lightweight yet effective encoder to model an initial state of the spatial variations. Subsequently, we develop our PDE-solving module in a parameterized latent space, tailored to address the spatio-temporal correlations inherent in point cloud video. The process of solving PDE is guided and refined by a contrastive learning structure, which is pivotal in reshaping the feature distribution, thereby optimizing the feature representation within point cloud video data. Remarkably, our Motion PointNet achieves an impressive accuracy of 97.52% on the MSRAction-3D dataset, surpassing the current state-of-the-art in all aspects while consuming minimal resources (only 0.72M parameters and 0.82G FLOPs).
arxiv情報
著者 | Zhuoxu Huang,Zhenkun Fan,Tao Xu,Jungong Han |
発行日 | 2024-05-29 15:01:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google