要約
主流の 3D 表現学習アプローチは、対比モデリングまたは生成モデリングの口実タスクに基づいて構築されており、さまざまな下流タスクのパフォーマンスの大幅な向上が達成されています。
ただし、これら 2 つのパラダイムには異なる特徴があることがわかりました。(i) 対照モデルはデータを大量に消費し、表現の過剰適合の問題に悩まされます。
(ii) 生成モデルには、対照モデルと比較してデータ スケーリング能力が劣ることを示すデータ充填の問題があります。
これにより、両方のパラダイムの利点を共有することで 3D 表現を学習するようになります。これは、2 つのパラダイム間のパターンの違いにより自明ではありません。
本稿では、これら 2 つのパラダイムを統合する Contrast with Reconstruct (ReCon) を提案します。
ReCon は、生成モデリング教師と、生成学生が対照学生を指導するアンサンブル蒸留を通じて単一/クロスモーダル対比教師の両方から学習するようにトレーニングされています。
エンコーダ-デコーダ スタイルの ReCon ブロックが提案されています。これは、停止勾配とのクロス アテンションを通じて知識を伝達し、事前学習の過剰適合やパターンの差異の問題を回避します。
ReCon は、ScanObjectNN で 91.26% の精度など、3D 表現学習において新しい最先端を達成します。
コードは https://github.com/qizekun/ReCon で公開されています。
要約(オリジナル)
Mainstream 3D representation learning approaches are built upon contrastive or generative modeling pretext tasks, where great improvements in performance on various downstream tasks have been achieved. However, we find these two paradigms have different characteristics: (i) contrastive models are data-hungry that suffer from a representation over-fitting issue; (ii) generative models have a data filling issue that shows inferior data scaling capacity compared to contrastive models. This motivates us to learn 3D representations by sharing the merits of both paradigms, which is non-trivial due to the pattern difference between the two paradigms. In this paper, we propose Contrast with Reconstruct (ReCon) that unifies these two paradigms. ReCon is trained to learn from both generative modeling teachers and single/cross-modal contrastive teachers through ensemble distillation, where the generative student guides the contrastive student. An encoder-decoder style ReCon-block is proposed that transfers knowledge through cross attention with stop-gradient, which avoids pretraining over-fitting and pattern difference issues. ReCon achieves a new state-of-the-art in 3D representation learning, e.g., 91.26% accuracy on ScanObjectNN. Codes have been released at https://github.com/qizekun/ReCon.
arxiv情報
著者 | Zekun Qi,Runpei Dong,Guofan Fan,Zheng Ge,Xiangyu Zhang,Kaisheng Ma,Li Yi |
発行日 | 2023-05-22 12:40:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google