要約
集約モデルは、CLIP、DINO、SAM などの既存のモデルから複数の教師による抽出を活用して、ビジョン基盤モデルをトレーニングするための強力なアプローチとして最近登場しました。
この戦略により、計算量とリソースの需要を大幅に削減しながら、個々の教師の強みを組み合わせて堅牢なモデルを効率的に作成できます。
この論文では、最先端の凝集モデルを徹底的に分析し、解像度モードのシフト、教師の不均衡、特異な教師アーティファクト、過剰な数の出力トークンなどの重大な課題を特定します。
これらの問題に対処するために、多重解像度トレーニング、モザイク拡張、教師損失関数のバランスの改善など、いくつかの新しいソリューションを提案します。
具体的には、ビジョン言語モデルのコンテキストで、固定トークン数内で高解像度の情報を維持するためのトークン圧縮技術を導入します。
推論コードと事前トレーニングされた重みとともに、複数のスケール (-B、-L、-H、および -g) で利用可能な最高パフォーマンスのモデルをリリースします。
要約(オリジナル)
Agglomerative models have recently emerged as a powerful approach to training vision foundation models, leveraging multi-teacher distillation from existing models such as CLIP, DINO, and SAM. This strategy enables the efficient creation of robust models, combining the strengths of individual teachers while significantly reducing computational and resource demands. In this paper, we thoroughly analyze state-of-the-art agglomerative models, identifying critical challenges including resolution mode shifts, teacher imbalance, idiosyncratic teacher artifacts, and an excessive number of output tokens. To address these issues, we propose several novel solutions: multi-resolution training, mosaic augmentation, and improved balancing of teacher loss functions. Specifically, in the context of Vision Language Models, we introduce a token compression technique to maintain high-resolution information within a fixed token count. We release our top-performing models, available in multiple scales (-B, -L, -H, and -g), alongside inference code and pretrained weights.
arxiv情報
著者 | Greg Heinrich,Mike Ranzinger,Hongxu,Yin,Yao Lu,Jan Kautz,Andrew Tao,Bryan Catanzaro,Pavlo Molchanov |
発行日 | 2024-12-10 17:06:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google