X4D-SceneFormer: Enhanced Scene Understanding on 4D Point Cloud Videos through Cross-modal Knowledge Transfer

要約

4D 点群理解の分野は、動的な 3D 点群シーケンスを解析することを目的として急速に発展しています。
ただし、点群がまばらでテクスチャが欠如しているため、これは依然として困難な作業です。
さらに、点群の不規則性により、ビデオ シーケンス内の時間情報を調整することが困難になります。
これらの問題に対処するために、私たちは X4D-SceneFormer と呼ばれる新しいクロスモーダル知識伝達フレームワークを提案します。
このフレームワークは、時間関係マイニングを備えた Transformer アーキテクチャを使用して、RGB シーケンスからテクスチャ プリアを転送することで、4D シーンの理解を強化します。
具体的には、このフレームワークは、4D 点群トランスフォーマーと勾配対応イメージ トランスフォーマー (GIT) で構成されるデュアル ブランチ アーキテクチャで設計されています。
トレーニング中、私たちは、モダリティ間の知識伝達を強化するために、時間的一貫性の喪失や仮面自己注意などの複数の知識伝達手法を採用します。
これにより、シングルモーダル 4D 点群入力を使用した推論時のパフォーマンスが向上します。
広範な実験により、アクション認識、アクション セグメンテーション、セマンティック セグメンテーションなどのさまざまな 4D 点群ビデオ理解タスクにおけるフレームワークの優れたパフォーマンスが実証されました。
その結果、HOI4D チャレンジ\脚注{\url{http://www.hoi4d]において、4D アクション セグメンテーションとセマンティック セグメンテーションで 85.3% (+7.9%) の精度と 47.3% (+5.0%) の mIoU で 1 位を達成しました。
.top/}.} は、以前の最先端技術を大幅に上回っています。
https://github.com/jinglinglingling/X4D でコードをリリースします。

要約(オリジナル)

The field of 4D point cloud understanding is rapidly developing with the goal of analyzing dynamic 3D point cloud sequences. However, it remains a challenging task due to the sparsity and lack of texture in point clouds. Moreover, the irregularity of point cloud poses a difficulty in aligning temporal information within video sequences. To address these issues, we propose a novel cross-modal knowledge transfer framework, called X4D-SceneFormer. This framework enhances 4D-Scene understanding by transferring texture priors from RGB sequences using a Transformer architecture with temporal relationship mining. Specifically, the framework is designed with a dual-branch architecture, consisting of an 4D point cloud transformer and a Gradient-aware Image Transformer (GIT). During training, we employ multiple knowledge transfer techniques, including temporal consistency losses and masked self-attention, to strengthen the knowledge transfer between modalities. This leads to enhanced performance during inference using single-modal 4D point cloud inputs. Extensive experiments demonstrate the superior performance of our framework on various 4D point cloud video understanding tasks, including action recognition, action segmentation and semantic segmentation. The results achieve 1st places, i.e., 85.3% (+7.9%) accuracy and 47.3% (+5.0%) mIoU for 4D action segmentation and semantic segmentation, on the HOI4D challenge\footnote{\url{http://www.hoi4d.top/}.}, outperforming previous state-of-the-art by a large margin. We release the code at https://github.com/jinglinglingling/X4D

arxiv情報

著者 Linglin Jing,Ying Xue,Xu Yan,Chaoda Zheng,Dong Wang,Ruimao Zhang,Zhigang Wang,Hui Fang,Bin Zhao,Zhen Li
発行日 2023-12-12 15:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク