要約
この研究では、低リソース言語での多言語 CLIP モデルのパフォーマンスを向上させるために設計されたコスト効率の高いフレームワークである CAPIVARA を紹介します。
CLIP はゼロショットのビジョン言語タスクでは優れていますが、リソースを大量に消費するモデル トレーニングの性質は依然として課題です。
多くのデータセットは言語の多様性に欠けており、画像の説明が英語のみになっています。
CAPIVARA は、画像キャプションと機械翻訳を使用してテキスト データを強化し、低リソース言語で複数の合成キャプションを生成することでこの問題に対処します。
LiT、LoRA、勾配チェックポイントを使用してトレーニング パイプラインを最適化し、計算コストを軽減します。
広範な実験を通じて、CAPIVARA は画像とポルトガル語のテキストを含むゼロショット タスクの最先端技術として浮上しました。
単一の GPU で CAPIVARA を使用して事前トレーニングされた多言語 CLIP を 2 時間微調整することで、他の低リソース言語でも大幅な改善が得られる可能性があることを示します。
私たちのモデルとコードは https://github.com/hiaac-nlp/CAPIVARA で入手できます。
要約(オリジナル)
This work introduces CAPIVARA, a cost-efficient framework designed to enhance the performance of multilingual CLIP models in low-resource languages. While CLIP has excelled in zero-shot vision-language tasks, the resource-intensive nature of model training remains challenging. Many datasets lack linguistic diversity, featuring solely English descriptions for images. CAPIVARA addresses this by augmenting text data using image captioning and machine translation to generate multiple synthetic captions in low-resource languages. We optimize the training pipeline with LiT, LoRA, and gradient checkpointing to alleviate the computational cost. Through extensive experiments, CAPIVARA emerges as state of the art in zero-shot tasks involving images and Portuguese texts. We show the potential for significant improvements in other low-resource languages, achieved by fine-tuning the pre-trained multilingual CLIP using CAPIVARA on a single GPU for 2 hours. Our model and code is available at https://github.com/hiaac-nlp/CAPIVARA.
arxiv情報
著者 | Gabriel Oliveira dos Santos,Diego A. B. Moreira,Alef Iury Ferreira,Jhessica Silva,Luiz Pereira,Pedro Bueno,Thiago Sousa,Helena Maia,Nádia Da Silva,Esther Colombini,Helio Pedrini,Sandra Avila |
発行日 | 2023-10-23 17:06:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google