要約
近年、CLIP のような画像テキスト トレーニングが視覚基礎モデルの事前トレーニングで主流となっています。
その後、領域レベルの視覚学習を CLIP の事前トレーニングに導入する取り組みが行われましたが、大規模な領域レベルのデータセットが不足しているため、スケーラビリティの課題に直面しています。
命令チューニングなどの自然言語処理における教師あり微調整 (SFT) からインスピレーションを得て、事前トレーニング後のビジョン基盤モデルの生成を強化する際の細粒度 SFT の可能性を探ります。
したがって、ビジョン基盤モデルのきめ細かい知識を解き放つために、2 段階の方法 ViSFT (ビジョン SFT) が提案されています。
ViSFT では、ビジョン基盤モデルは、いくつかのドメイン内タスクで視覚的な共同学習を実行することによって強化され、その後ドメイン外のベンチマークでテストされます。
8 つの V100 GPU で ViSFT を使用して 2 日以内に更新すると、44 億を超えるパラメーターを持つビジョン トランスフォーマーは、ビジョンやビジョン言語シナリオを含むさまざまなドメイン外のベンチマーク全体で改善を示しました。
要約(オリジナル)
Image-text training like CLIP has dominated the pretraining of vision foundation models in recent years. Subsequent efforts have been made to introduce region-level visual learning into CLIP’s pretraining but face scalability challenges due to the lack of large-scale region-level datasets. Drawing inspiration from supervised fine-tuning (SFT) in natural language processing such as instruction tuning, we explore the potential of fine-grained SFT in enhancing the generation of vision foundation models after their pretraining. Thus a two-stage method ViSFT (Vision SFT) is proposed to unleash the fine-grained knowledge of vision foundation models. In ViSFT, the vision foundation model is enhanced by performing visual joint learning on some in-domain tasks and then tested on out-of-domain benchmarks. With updating using ViSFT on 8 V100 GPUs in less than 2 days, a vision transformer with over 4.4B parameters shows improvements across various out-of-domain benchmarks including vision and vision-linguistic scenarios.
arxiv情報
著者 | Xiaohu Jiang,Yixiao Ge,Yuying Ge,Chun Yuan,Ying Shan |
発行日 | 2024-01-18 18:58:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google