X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment

要約

大規模言語モデル (LLM) の目覚ましい発展は、テキストを超えた複数のタイプのデータを組み込む大規模マルチモーダル モデル (LMM) の領域に拡大しています。
ただし、マルチモーダル モデルの性質により、トレーニング データの作成に多額の費用がかかります。
さらに、LMM 用の多言語データの構築には、言語の多様性と複雑さによる独自の一連の課題が伴います。
したがって、この研究では、この問題を解決するための 2 つの費用対効果の高い方法を提案します。(1) 語彙拡張と特定言語の多言語 LLM の事前トレーニング、および (2) GPT4-V を使用したマルチモーダル データセットの自動かつ精緻な構築。
これらの方法に基づいて、91,000 の英語、韓国語、中国語の多言語、マルチモーダルなトレーニング データセットを構築しました。
さらに、既存のアプローチを超えて、韓国語と英語の両方で優れたパフォーマンスを発揮するバイリンガルマルチモーダルモデルを開発しました。

要約(オリジナル)

The impressive development of large language models (LLMs) is expanding into the realm of large multimodal models (LMMs), which incorporate multiple types of data beyond text. However, the nature of multimodal models leads to significant expenses in the creation of training data. Furthermore, constructing multilingual data for LMMs presents its own set of challenges due to language diversity and complexity. Therefore, in this study, we propose two cost-effective methods to solve this problem: (1) vocabulary expansion and pretraining of multilingual LLM for specific languages, and (2) automatic and elaborate construction of multimodal datasets using GPT4-V. Based on015 these methods, we constructed a 91K English-Korean-Chinese multilingual, multimodal training dataset. Additionally, we developed a bilingual multimodal model that exhibits excellent performance in both Korean and English, surpassing existing approaches.

arxiv情報

著者 Dongjae Shin,Hyunseok Lim,Inho Won,Changsu Choi,Minjun Kim,Seungwoo Song,Hangyeol Yoo,Sangmin Kim,Kyungtae Lim
発行日 2024-03-18 01:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク