要約
クロスモーダル事前トレーニングは、インターネットから収集された大量の画像とテキストのペアの恩恵を受けて、幅広い下流タスクで優れたパフォーマンスを示しました。
実際には、オンライン データは継続的に増加しており、増加し続けるデータから学習する事前トレーニング モデルの機能の重要性が強調されています。
クロスモーダル事前トレーニングに関する既存の研究は、主に固定アーキテクチャによるネットワークのトレーニングに焦点を当てています。
ただし、現実世界のアプリケーションにおける事前トレーニング データの継続的に増加する性質を考慮すると、モデルの容量を制限することは現実的ではありません。
一方、効率的なトレーニングとより良いパフォーマンスを得るには、現在のモデルの知識を利用することが重要です。
上記の問題に対処するために、この論文では、連続的な画像とテキストのペアを入力として対照的な言語と画像の事前トレーニングを行うためのデータ駆動型の自動モデル成長アルゴリズムである GrowCLIP を提案します。
特に、動的な成長スペースを採用し、オンライン学習シナリオに適応するために各成長ステップで最適なアーキテクチャを模索します。
そして、共有エンコーダーは、クロスモーダル融合の度合いを高めるために、私たちの成長分野で提案されています。
さらに、さまざまな次元での成長の影響を調査し、クロスモーダル モデル アーキテクチャの設計に将来の参考となる可能性があります。
最後に、以前の知識を維持し、局所最小ジレンマの問題に対処するために、運動量を伴うパラメーター継承 (PIM) を採用します。
既存の方法と比較して、GrowCLIP は 9 つの下流タスクのゼロショット画像分類で平均トップ 1 精度を 2.3% 向上させます。
ゼロショット画像検索に関しては、GrowCLIP は Flickr30K データセットでのトップ 1 の画像からテキストへの再現率を 1.2% 向上させることができます。
要約(オリジナル)
Cross-modal pre-training has shown impressive performance on a wide range of downstream tasks, benefiting from massive image-text pairs collected from the Internet. In practice, online data are growing constantly, highlighting the importance of the ability of pre-trained model to learn from data that is continuously growing. Existing works on cross-modal pre-training mainly focus on training a network with fixed architecture. However, it is impractical to limit the model capacity when considering the continuously growing nature of pre-training data in real-world applications. On the other hand, it is important to utilize the knowledge in the current model to obtain efficient training and better performance. To address the above issues, in this paper, we propose GrowCLIP, a data-driven automatic model growing algorithm for contrastive language-image pre-training with continuous image-text pairs as input. Specially, we adopt a dynamic growth space and seek out the optimal architecture at each growth step to adapt to online learning scenarios. And the shared encoder is proposed in our growth space to enhance the degree of cross-modal fusion. Besides, we explore the effect of growth in different dimensions, which could provide future references for the design of cross-modal model architecture. Finally, we employ parameter inheriting with momentum (PIM) to maintain the previous knowledge and address the issue of the local minimum dilemma. Compared with the existing methods, GrowCLIP improves 2.3% average top-1 accuracy on zero-shot image classification of 9 downstream tasks. As for zero-shot image retrieval, GrowCLIP can improve 1.2% for top-1 image-to-text recall on Flickr30K dataset.
arxiv情報
著者 | Xinchi Deng,Han Shi,Runhui Huang,Changlin Li,Hang Xu,Jianhua Han,James Kwok,Shen Zhao,Wei Zhang,Xiaodan Liang |
発行日 | 2023-08-22 10:07:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google