要約
トレーニング セットのサイズを縮小できれば、ビジョン言語モデル (VLM) をより効率的にトレーニングできます。
最近の研究では、切り捨て、ランダム マスキング、ブロック マスキング、構文マスキングなどのさまざまなアプローチを使用して、VLM トレーニング中にテキストをマスキングする利点が示されています。
この論文では、最適なマスキング戦略がトレーニング エポックによって変化すること、および十分なトレーニング エポックが与えられた場合、最高のパフォーマンスを達成するには単語頻度情報が必要であることを示します。
広範囲のデータセットに対する実験は、単語周波数マスキングによる対照的言語画像事前トレーニング (CLIPF) と呼ばれる私たちのアプローチの利点を実証しています。
この利点は、入力トークンの数が減少するにつれて特に顕著になります。
私たちは、単語頻度バランスに対する CLIPF と他のマスキング手法の影響を分析し、POS カテゴリ全体で単語頻度バランスを維持する上で CLIPF が明らかに重要な貢献をしていることについて議論します。
要約(オリジナル)
Vision Language Models (VLMs) can be trained more efficiently if training sets can be reduced in size. Recent work has shown the benefits of masking text during VLM training using a variety of approaches: truncation, random masking, block masking and syntax masking. In this paper, we show that the best masking strategy changes over training epochs and that, given sufficient training epochs, word frequency information is what you need to achieve the best performance. Experiments on a large range of data sets demonstrate the advantages of our approach, called Contrastive Language-Image Pre-training with word Frequency Masking (CLIPF). The benefits are particularly evident as the number of input tokens decreases. We analyze the impact of CLIPF vs. other masking approaches on word frequency balance and discuss the apparently critical contribution of CLIPF in maintaining word frequency balance across POS categories.
arxiv情報
著者 | Mingliang Liang,Martha Larson |
発行日 | 2024-12-20 18:51:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google