Dallah: A Dialect-Aware Multimodal Large Language Model for Arabic

要約

最近の進歩により、画像からテキストへのコンテンツの生成と理解におけるマルチモーダル大規模言語モデル (MLLM) の機能が大幅に強化されました。
これらの成功にもかかわらず、他の言語では高品質で多様なリソースが不足しているため、進歩は主に英語に限定されています。
この制限により、アラビア語などの言語での競合モデルの開発が妨げられます。
この状況を軽減するために、LLaMA-2 に基づく高度な言語モデルを利用してマルチモーダルな対話を促進する、Dallah と呼ばれる効率的なアラビア語マルチモーダル アシスタントを導入します。
ダラはアラビア語の MLLM で最先端のパフォーマンスを実証します。
Dallah は、6 つのアラビア語方言を微調整することにより、テキスト要素と視覚要素の両方を組み込んだ複雑な方言の相互作用を処理できる能力を示しています。
このモデルは 2 つのベンチマーク テストで優れています。1 つは現代標準アラビア語 (MSA) でのパフォーマンスを評価し、もう 1 つは方言の応答を評価するために特別に設計されています。
Dallah は、マルチモーダル インタラクション タスクにおける堅牢なパフォーマンスに加えて、方言を認識したアラビア語 MLLM のさらなる開発への道を開く可能性を秘めています。

要約(オリジナル)

Recent advancements have significantly enhanced the capabilities of Multimodal Large Language Models (MLLMs) in generating and understanding image-to-text content. Despite these successes, progress is predominantly limited to English due to the scarcity of high quality multimodal resources in other languages. This limitation impedes the development of competitive models in languages such as Arabic. To alleviate this situation, we introduce an efficient Arabic multimodal assistant, dubbed Dallah, that utilizes an advanced language model based on LLaMA-2 to facilitate multimodal interactions. Dallah demonstrates state-of-the-art performance in Arabic MLLMs. Through fine-tuning six Arabic dialects, Dallah showcases its capability to handle complex dialectal interactions incorporating both textual and visual elements. The model excels in two benchmark tests: one evaluating its performance on Modern Standard Arabic (MSA) and another specifically designed to assess dialectal responses. Beyond its robust performance in multimodal interaction tasks, Dallah has the potential to pave the way for further development of dialect-aware Arabic MLLMs.

arxiv情報

著者 Fakhraddin Alwajih,Gagan Bhatia,Muhammad Abdul-Mageed
発行日 2024-07-26 15:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク