Embracing Language Inclusivity and Diversity in CLIP through Continual Language Learning

要約

近年、視覚言語事前訓練モデル (VL-PTM) はマルチモーダルな研究を進めていますが、英語などのいくつかの言語を習得しているため、より広範なコミュニティでの適用が制限されています。
この目的を達成するために、共同学習セットアップを介して多言語 VL モデルを開発することへの関心が高まっていますが、これは高価なコストとデータの可用性のために非現実的である可能性があります。
この研究では、継続的言語学習 (CLL) によって VL-PTM の言語能力を拡張することを提案します。この場合、モデルは壊滅的な忘却 (CF) に悩まされることなく言語知識を段階的に更新する必要があります。
私たちは、CLL-CLIPと呼ばれるモデルを導入することから研究を開始します。これは、画像と英語のテキストの位置合わせを取得した一般的なVL-PTMであるCLIPに基づいて構築されています。
具体的には、CLL-CLIP には、言語の違いを処理するための拡張可能なトークン埋め込み層が含まれています。
これは、メモリの安定性を向上させるためにトークンの埋め込みをトレーニングするだけであり、画像と多言語テキストの間の整合性を学習するために、クロスモーダルおよびクロス言語の目的に基づいて最適化されています。
共変量シフトと語彙の重複によって生じる CF を軽減するために、初期化中にすべてのトークン埋め込みの同一の分布を保証し、トレーニング中にトークン埋め込み学習を正規化する新しいアプローチをさらに提案します。
MSCOCO および XM3600 データセットに基づいて 36 言語をカバーする CLL ベンチマークを構築し、多言語画像テキスト検索パフォーマンスを評価します。
広範な実験により CLL-CLIP の有効性が検証され、私たちのアプローチが CLL-CLIP を向上させ、たとえば XM3600 でのテキストから画像への平均 Recall@1 を 6.7% 向上させ、さまざまな最先端の手法を一貫して改善できることが示されました。

コードとデータは \url{https://github.com/yangbang18/CLFM} で入手できます。

要約(オリジナル)

While vision-language pre-trained models (VL-PTMs) have advanced multimodal research in recent years, their mastery in a few languages like English restricts their applicability in broader communities. To this end, there is an increasing interest in developing multilingual VL models via a joint-learning setup, which, however, could be unrealistic due to expensive costs and data availability. In this work, we propose to extend VL-PTMs’ language capacity by continual language learning (CLL), where a model needs to update its linguistic knowledge incrementally without suffering from catastrophic forgetting (CF). We begin our study by introducing a model dubbed CLL-CLIP, which builds upon CLIP, a prevailing VL-PTM that has acquired image-English text alignment. Specifically, CLL-CLIP contains an expandable token embedding layer to handle linguistic differences. It solely trains token embeddings to improve memory stability and is optimized under cross-modal and cross-lingual objectives to learn the alignment between images and multilingual texts. To alleviate CF raised by covariate shift and lexical overlap, we further propose a novel approach that ensures the identical distribution of all token embeddings during initialization and regularizes token embedding learning during training. We construct a CLL benchmark covering 36 languages based on MSCOCO and XM3600 datasets and then evaluate multilingual image-text retrieval performance. Extensive experiments verify the effectiveness of CLL-CLIP and show that our approach can boost CLL-CLIP, e.g., by 6.7% in text-to-image average Recall@1 on XM3600, and improve various state-of-the-art methods consistently. Our code and data are available at \url{https://github.com/yangbang18/CLFM}.

arxiv情報

著者 Bang Yang,Yong Dai,Xuxin Cheng,Yaowei Li,Asif Raza,Yuexian Zou
発行日 2024-01-30 17:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR パーマリンク