Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

要約

このレポートでは、ベトナム語タスク向けの信頼性の高い 10 億パラメータのマルチモーダル大規模言語モデル (MLLM) である Vintern-1B を紹介します。
Qwen2-0.5B-Instruct 言語モデルを InternViT-300M-448px ビジュアル モデルと統合することにより、Vintern-1B は光学式文字認識 (OCR)、文書抽出、ベトナム語での一般的な質問応答などの幅広いアプリケーション向けに最適化されています。
コンテクスト。
このモデルは、300 万を超える画像と質問と回答のペアからなる広範なデータセットに基づいて微調整されており、OpenViVQA や ViTextVQA などの複数のベトナム語ベンチマークにわたって堅牢なパフォーマンスと信頼性の高い結果を実現しています。
Vintern-1B は、さまざまなオンデバイス アプリケーションに簡単に適合できるほど小型です。
さらに、Gemini 1.5 Flash で作成された、テキストと図のベトナム語ビジョン質問応答 (VQA) データセットをいくつかオープンソース化しました。
当社のモデルは https://huggingface.co/5CD-AI/Vintern-1B-v2 で入手できます。

要約(オリジナル)

In this report, we introduce Vintern-1B, a reliable 1-billion-parameters multimodal large language model (MLLM) for Vietnamese language tasks. By integrating the Qwen2-0.5B-Instruct language model with the InternViT-300M-448px visual model, Vintern-1B is optimized for a range of applications, including optical character recognition (OCR), document extraction, and general question-answering in Vietnamese context. The model is fine-tuned on an extensive dataset of over 3 million image-question-answer pairs, achieving robust performance and reliable results across multiple Vietnamese language benchmarks like OpenViVQA and ViTextVQA. Vintern-1B is small enough to fit into various on-device applications easily. Additionally, we have open-sourced several Vietnamese vision question answering (VQA) datasets for text and diagrams, created with Gemini 1.5 Flash. Our models are available at: https://huggingface.co/5CD-AI/Vintern-1B-v2.

arxiv情報

著者 Khang T. Doan,Bao G. Huynh,Dung T. Hoang,Thuc D. Pham,Nhat H. Pham,Quan T. M. Nguyen,Bang Q. Vo,Suong N. Hoang
発行日 2024-08-23 09:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク