要約
シャム ネットワークを使用した自己蒸留手法は、自己教師ありの事前トレーニングとして人気があります。
DINO は、$K$ 次元の確率ベクトル間のクロスエントロピー損失に基づく手法の 1 つで、表現と学習されたプロトタイプの間の内積にソフトマックス関数を適用することで得られます。
学習された表現が $L^2$ 正規化されているという事実を考慮すると、DINO とその派生モデル (iBOT など) がフォン・ミーゼス・フィッシャー成分の混合モデルとして解釈できることを示します。
この解釈では、プロトタイプも $L^2$ 正規化されている場合、DINO はすべてのコンポーネントの精度が等しいと仮定します。
この洞察を使用して、クラスター割り当て確率を計算するときに適切な正規化定数を追加する DINO-vMF を提案します。
DINO とは異なり、DINO-vMF は正規化されていないプロトタイプを含む大規模な ViT-Base モデルに対しても安定しています。
混合モデルの柔軟性の追加が、より良い画像表現の点で有益であることを示します。
DINO-vMF の事前トレーニング済みモデルは、さまざまなダウンストリーム タスクにおいて DINO よりも一貫して優れたパフォーマンスを発揮します。
iBOT と比較して iBOT-vMF についても同様の改善が得られ、それによって、提案した修正が DINO から派生した他の方法にも関連することがわかります。
要約(オリジナル)
Self-distillation methods using Siamese networks are popular for self-supervised pre-training. DINO is one such method based on a cross-entropy loss between $K$-dimensional probability vectors, obtained by applying a softmax function to the dot product between representations and learnt prototypes. Given the fact that the learned representations are $L^2$-normalized, we show that DINO and its derivatives, such as iBOT, can be interpreted as a mixture model of von Mises-Fisher components. With this interpretation, DINO assumes equal precision for all components when the prototypes are also $L^2$-normalized. Using this insight we propose DINO-vMF, that adds appropriate normalization constants when computing the cluster assignment probabilities. Unlike DINO, DINO-vMF is stable also for the larger ViT-Base model with unnormalized prototypes. We show that the added flexibility of the mixture model is beneficial in terms of better image representations. The DINO-vMF pre-trained model consistently performs better than DINO on a range of downstream tasks. We obtain similar improvements for iBOT-vMF vs iBOT and thereby show the relevance of our proposed modification also for other methods derived from DINO.
arxiv情報
著者 | Hariprasath Govindarajan,Per Sidén,Jacob Roll,Fredrik Lindsten |
発行日 | 2024-05-17 17:49:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google