要約
マスクされた自動エンコーディングと生成的事前トレーニングは、コンピューター ビジョンと自然言語処理で目覚ましい成功を収めており、さらに最近では点群ドメインにも拡張されています。
それにもかかわらず、既存の点群モデルは、中心点の事前サンプリングによる情報漏洩の問題を抱えており、これによりモデルの簡単なプロキシ タスクが発生します。
これらのアプローチは主に局所的な特徴の再構成に焦点を当てており、点群内のグローバル パターンをキャプチャする能力が制限されています。
この論文では、口実タスクの難易度の低下により、表現表現を学習するモデルの能力が妨げられると主張します。
これらの制限に対処するために、Differentiable Center Sampling Network (DCS-Net) と呼ばれる新しいソリューションを導入します。
グローバル フィーチャの再構成とローカル フィーチャの再構成の両方を重要なプロキシ タスクとして組み込むことで情報漏洩の問題に取り組み、点群内のグローバル パターンとローカル パターンの両方を同時に学習できるようにします。
実験結果は、私たちの方法が既存の点群モデルの表現能力を強化し、情報漏洩の問題に効果的に対処することを示しています。
要約(オリジナル)
Masked autoencoding and generative pretraining have achieved remarkable success in computer vision and natural language processing, and more recently, they have been extended to the point cloud domain. Nevertheless, existing point cloud models suffer from the issue of information leakage due to the pre-sampling of center points, which leads to trivial proxy tasks for the models. These approaches primarily focus on local feature reconstruction, limiting their ability to capture global patterns within point clouds. In this paper, we argue that the reduced difficulty of pretext tasks hampers the model’s capacity to learn expressive representations. To address these limitations, we introduce a novel solution called the Differentiable Center Sampling Network (DCS-Net). It tackles the information leakage problem by incorporating both global feature reconstruction and local feature reconstruction as non-trivial proxy tasks, enabling simultaneous learning of both the global and local patterns within point cloud. Experimental results demonstrate that our method enhances the expressive capacity of existing point cloud models and effectively addresses the issue of information leakage.
arxiv情報
著者 | Zhe Li,Ziyang Zhang,Jinglin Zhao,Zheng Wang,Bocheng Ren,Debin Liu,Laurence T. Yang |
発行日 | 2024-10-11 14:51:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google