DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

要約

最近のマルチティーチャー蒸留方法により、複数の基礎モデルのエンコーダーが単一のエンコーダーに統合され、分類、セグメンテーション、深度推定などのコアビジョンタスクの競争力のあるパフォーマンスを達成しました。
これにより、教師のプールには、2Dと3Dの両方の認識における多様なタスクに特化したビジョンモデルも含まれている場合、同様の成功を達成できますか?
この論文では、教師モデルが(a)設計目標と(b)トレーニングされたデータの両方で、教師モデルが大幅に異なる挑戦的なマルチテーカーの蒸留シナリオである、不均一な教師の蒸留または共蒸留の問題を定義および調査します。
データ共有戦略と教師固有のエンコーディングを探求し、2Dビジョン、3D理解、3D人間の知覚に優れている単一のエンコーダーであるDuneを紹介します。
私たちのモデルは、それぞれのタスクで、より大きな教師のパフォーマンスに匹敵するパフォーマンスを達成し、時にはそれらを上回ることさえあります。
特に、Duneは、はるかに小さなエンコーダーを使用して、マップフリーの視覚的再局在化でMAST3Rを上回ります。

要約(オリジナル)

Recent multi-teacher distillation methods have unified the encoders of multiple foundation models into a single encoder, achieving competitive performance on core vision tasks like classification, segmentation, and depth estimation. This led us to ask: Could similar success be achieved when the pool of teachers also includes vision models specialized in diverse tasks across both 2D and 3D perception? In this paper, we define and investigate the problem of heterogeneous teacher distillation, or co-distillation, a challenging multi-teacher distillation scenario where teacher models vary significantly in both (a) their design objectives and (b) the data they were trained on. We explore data-sharing strategies and teacher-specific encoding, and introduce DUNE, a single encoder excelling in 2D vision, 3D understanding, and 3D human perception. Our model achieves performance comparable to that of its larger teachers, sometimes even outperforming them, on their respective tasks. Notably, DUNE surpasses MASt3R in Map-free Visual Relocalization with a much smaller encoder.

arxiv情報

著者 Mert Bulent Sariyildiz,Philippe Weinzaepfel,Thomas Lucas,Pau de Jorge,Diane Larlus,Yannis Kalantidis
発行日 2025-03-18 16:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク