Learning from Offline Foundation Features with Tensor Augmentations

要約

LOFF-TA(Learning from Offline Foundation Features with Tensor Augmentations)を紹介する。LOFF-TAは、直接的な開発が不可能な限られたリソース環境において、基礎モデルの能力を活用するために設計された効率的な学習スキームである。LOFF-TAは、凍結された基礎モデルからキャッシュされた特徴埋め込みでコンパクトな分類器を学習することで、学習が最大37倍速くなり、GPUメモリ使用量が最大26倍削減される。拡張された画像の埋め込みは、保存するには多すぎるが、拡張処理は学習に不可欠であるため、我々は、拡張されていない元の画像のキャッシュされた埋め込みにテンソル拡張を適用することを提案する。LOFF-TAは、計算能力の限られた環境において、そのサイズに関係なく、基礎モデルの力を活用することを可能にする。さらに、LOFF-TAは、計算量を増加させることなく、高解像度の画像に基礎モデルを適用するために用いることができる。特定のシナリオでは、LOFF-TAを用いたトレーニングは、基礎モデルを直接微調整するよりも良い結果をもたらすことがわかります。

要約(オリジナル)

We introduce Learning from Offline Foundation Features with Tensor Augmentations (LOFF-TA), an efficient training scheme designed to harness the capabilities of foundation models in limited resource settings where their direct development is not feasible. LOFF-TA involves training a compact classifier on cached feature embeddings from a frozen foundation model, resulting in up to $37\times$ faster training and up to $26\times$ reduced GPU memory usage. Because the embeddings of augmented images would be too numerous to store, yet the augmentation process is essential for training, we propose to apply tensor augmentations to the cached embeddings of the original non-augmented images. LOFF-TA makes it possible to leverage the power of foundation models, regardless of their size, in settings with limited computational capacity. Moreover, LOFF-TA can be used to apply foundation models to high-resolution images without increasing compute. In certain scenarios, we find that training with LOFF-TA yields better results than directly fine-tuning the foundation model.

arxiv情報

著者 Emir Konuk,Christos Matsoukas,Moein Sorkhei,Phitchapha Lertsiravaramet,Kevin Smith
発行日 2024-10-03 14:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク