要約
この論文では、長期的な点群ビデオ理解のための 4D バックボーンを提案します。
時空間コンテキストをキャプチャする一般的な方法は、4Dconv またはトランスフォーマーを階層なしで使用することです。
ただし、これらの方法は、カメラの動き、シーンの変化、サンプリング パターン、および 4D データの複雑さのために、効果的でも効率的でもありません。
これらの問題に対処するために、プリミティブ平面を中間レベルの表現として活用して、4D 点群ビデオの長期的な時空間コンテキストをキャプチャし、主に
イントラ プリミティブ ポイント トランスフォーマーとプリミティブ トランスフォーマー。
広範な実験により、PPTr はさまざまなタスクで以前の最先端技術よりも優れていることが示されています。
要約(オリジナル)
This paper proposes a 4D backbone for long-term point cloud video understanding. A typical way to capture spatial-temporal context is using 4Dconv or transformer without hierarchy. However, those methods are neither effective nor efficient enough due to camera motion, scene changes, sampling patterns, and the complexity of 4D data. To address those issues, we leverage the primitive plane as a mid-level representation to capture the long-term spatial-temporal context in 4D point cloud videos and propose a novel hierarchical backbone named Point Primitive Transformer(PPTr), which is mainly composed of intra-primitive point transformers and primitive transformers. Extensive experiments show that PPTr outperforms the previous state of the arts on different tasks.
arxiv情報
著者 | Hao Wen,Yunze Liu,Jingwei Huang,Bo Duan,Li Yi |
発行日 | 2022-12-20 10:22:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google