要約
DINOとDINOV2は、大規模で無効な画像データから表現を学習するために広く使用されている2つのモデルファミリです。
彼らの学んだ表現は、多くの場合、画像分類やセグメンテーションなどの下流タスクの最先端のパフォーマンスを可能にします。
しかし、彼らは多くの経験的に動機付けられた設計の選択を採用しており、彼らのトレーニングパイプラインは非常に複雑で不安定です – 多くのハイパーパラメーターは、表現が崩壊しないように慎重に調整する必要があります – これはそれらを改善または新しいドメインに適応させるのがかなりの困難をもたらします
。
この作業では、トレーニング前のパイプラインでこのような運動型の特異性を削除できると仮定し、表現の崩壊を避けるために損失関数に明示的なコーディング速度項を追加するだけです。
その結果、それぞれSimdinoとSimdinov2と呼ばれるDinoとDinov2の非常に単純化されたバリアントを取得します。
驚くべきことに、これらの単純化されたモデルは、ネットワークアーキテクチャやハイパーパラメーターなど、さまざまな設計の選択肢に対してより堅牢であり、下流タスクのパフォーマンスで測定され、対応するDINOおよびDINOV2モデルのパレート改善を提供する高品質の表現を学習します。
この作業は、デザインの原則を単純化するために、深い学習の経験的実践を改善する可能性を強調しています。
要約(オリジナル)
DINO and DINOv2 are two model families being widely used to learn representations from unlabeled imagery data at large scales. Their learned representations often enable state-of-the-art performance for downstream tasks, such as image classification and segmentation. However, they employ many empirically motivated design choices and their training pipelines are highly complex and unstable — many hyperparameters need to be carefully tuned to ensure that the representations do not collapse — which poses considerable difficulty to improving them or adapting them to new domains. In this work, we posit that we can remove most such-motivated idiosyncrasies in the pre-training pipelines, and only need to add an explicit coding rate term in the loss function to avoid collapse of the representations. As a result, we obtain highly simplified variants of the DINO and DINOv2 which we call SimDINO and SimDINOv2, respectively. Remarkably, these simplified models are more robust to different design choices, such as network architecture and hyperparameters, and they learn even higher-quality representations, measured by performance on downstream tasks, offering a Pareto improvement over the corresponding DINO and DINOv2 models. This work highlights the potential of using simplifying design principles to improve the empirical practice of deep learning.
arxiv情報
著者 | Ziyang Wu,Jingyuan Zhang,Druv Pai,XuDong Wang,Chandan Singh,Jianwei Yang,Jianfeng Gao,Yi Ma |
発行日 | 2025-02-14 18:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google