要約
タイトル:マスクオートエンコーダーベースのポイントクラウドプリトレーニングのための3D特徴量予測
要約:
– 3D自己教師付きプリトレーニングにおいて、マスクオートエンコーダー(MAE)が、NLPやコンピュータビジョンでの大成功により導入されてきた。
– 画像領域で使用されるMAEは、マスクされたピクセルの特徴の復元(例:色)を前提課題としているが、既存の3D MAEはマスクされたポイントの場所のみを再構成する。
– 以前の研究とは対照的に、ポイント位置の復元は不要であり、内在的なポイントの特徴の復元が優れていると主張する。
– この目的のために、私たちはポイントの位置の再構成を無視し、マスクされたポイントの表面法線や表面変動を含む高次元の特徴を復元する新しいアテンションベースのデコーダーを提案する。
– 私たちは、さまざまなエンコーダー構造を3Dトレーニングに使用して、事前課題とデコーダーの設計の有効性を検証し、私たちのプリトレーニングネットワークの利点を様々なポイントクラウド解析のタスクで示した。
要約(オリジナル)
Masked autoencoders (MAE) have recently been introduced to 3D self-supervised pretraining for point clouds due to their great success in NLP and computer vision. Unlike MAEs used in the image domain, where the pretext task is to restore features at the masked pixels, such as colors, the existing 3D MAE works reconstruct the missing geometry only, i.e, the location of the masked points. In contrast to previous studies, we advocate that point location recovery is inessential and restoring intrinsic point features is much superior. To this end, we propose to ignore point position reconstruction and recover high-order features at masked points including surface normals and surface variations, through a novel attention-based decoder which is independent of the encoder design. We validate the effectiveness of our pretext task and decoder design using different encoder structures for 3D training and demonstrate the advantages of our pretrained networks on various point cloud analysis tasks.
arxiv情報
著者 | Siming Yan,Yuqi Yang,Yuxiao Guo,Hao Pan,Peng-shuai Wang,Xin Tong,Yang Liu,Qixing Huang |
発行日 | 2023-04-14 03:25:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI