Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models

要約

横断的転送により、ビジョン言語モデル(VLM)は、1つの言語でのみトレーニングデータを使用して、さまざまな言語でビジョンタスクを実行できます。
現在のアプローチは、事前に訓練された大規模な多言語モデルに依存しています。
しかし、彼らは多言語性の呪いに直面し、多言語の能力のために下流のタスクパフォ​​ーマンスを犠牲にし、語彙的曖昧さに苦しみ、最近の進歩に遅れをとっています。
この作業では、モデルサイズと見たトレーニングサンプルの影響に焦点を当てた多言語タスクの単一言語VLMを使用した体系的一般化のスケーリング法則を研究します。
0.4Bから11.2Bのパラメーターを備えた単一言語エンコーダーデコダーVLMであるFlorenzを提案します。
Florenzは、画像キャプションの意図的に不完全な言語カバレッジを特徴とする合成データセット上のさまざまな計算予算でトレーニングされているため、完全に覆われた翻訳タスクから一般化をテストします。
間接的に目に見えないタスク言語のペアがスケーリング法に付着するだけでなく、データ生成パイプラインと提案されたFlorenzモデルファミリーでも、翻訳タスクのデータのみが利用可能であっても、特定の言語で画像キャプション能力が出現する可能性があることを示しています。
ダウンストリームデータセットの組み合わせで微調整すると、競争力のあるパフォーマンスが得られ、マルチモーダルマシン翻訳(Multi30K、通勤)、語彙乱用(通勤)、および画像キャプション(Multi30K、XM3600、Coco Karpathy)の有望なスケーリング傾向が示されます。

要約(オリジナル)

Cross-lingual transfer enables vision-language models (VLMs) to perform vision tasks in various languages with training data only in one language. Current approaches rely on large pre-trained multilingual language models. However, they face the curse of multilinguality, sacrificing downstream task performance for multilingual capabilities, struggling with lexical ambiguities, and falling behind recent advances. In this work, we study the scaling laws of systematic generalization with monolingual VLMs for multilingual tasks, focusing on the impact of model size and seen training samples. We propose Florenz, a monolingual encoder-decoder VLM with 0.4B to 11.2B parameters combining the pre-trained VLM Florence-2 and the large language model Gemma-2. Florenz is trained with varying compute budgets on a synthetic dataset that features intentionally incomplete language coverage for image captioning, thus, testing generalization from the fully covered translation task. We show that not only does indirectly learning unseen task-language pairs adhere to a scaling law, but also that with our data generation pipeline and the proposed Florenz model family, image captioning abilities can emerge in a specific language even when only data for the translation task is available. Fine-tuning on a mix of downstream datasets yields competitive performance and demonstrates promising scaling trends in multimodal machine translation (Multi30K, CoMMuTE), lexical disambiguation (CoMMuTE), and image captioning (Multi30K, XM3600, COCO Karpathy).

arxiv情報

著者 Julian Spravil,Sebastian Houben,Sven Behnke
発行日 2025-03-12 14:41:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク