Komodo: A Linguistic Expedition into Indonesia’s Regional Languages

要約

大規模言語モデル (LLM) における最近の進歩は、主に、英語など、容易に入手でき、十分なリソースを備えた言語に焦点を当てています。
ただし、パブリックドメインに十分な言語リソースが不足している言語については、依然として大きなギャップが残っています。
私たちの研究では、インドネシア語、英語、およびインドネシアの 11 の地域言語にわたってシームレスに動作することで、このギャップに対処するように設計された 70 億パラメータの大規模言語モデルである Komodo-7B を導入しました。
Komodo-7B は、Komodo-7B-Base と Komodo-7B-Instruct で構成される LLM ファミリです。
Komodo-7B-Instruct は、さまざまなタスクや言語で最先端のパフォーマンスを達成することで際立っており、OpenAI の GPT-3.5、Cohere のaya-101、Llama-2-Chat-13B、Mixtral-8x7B- によって設定されたベンチマークを上回っています。
Instruct-v0.1、Gemma-7B-it など。
このモデルは、言語固有の評価と全体的な評価の両方で優れたパフォーマンスを実証するだけでなく、言語の多様性において優れた能力を発揮することも強調しています。
言語モデルの進歩に対する私たちの取り組みは、豊富なリソースを備えた言語を超えて広がっており、言語資産が限られている人々のギャップを埋めることを目指しています。
さらに、Komodo-7B-Instruct の言語間の理解の向上は、英語から 11 の地域言語への直接翻訳を提供することで、インドネシアの教育格差の解消に貢献しており、既存の言語翻訳サービスと比較して大幅な改善となっています。
Komodo-7B は、言語モデルの包括性と有効性への重要なステップを表し、多様なコミュニティの言語ニーズに対応します。

要約(オリジナル)

The recent breakthroughs in Large Language Models (LLMs) have mostly focused on languages with easily available and sufficient resources, such as English. However, there remains a significant gap for languages that lack sufficient linguistic resources in the public domain. Our work introduces Komodo-7B, 7-billion-parameter Large Language Models designed to address this gap by seamlessly operating across Indonesian, English, and 11 regional languages in Indonesia. Komodo-7B is a family of LLMs that consist of Komodo-7B-Base and Komodo-7B-Instruct. Komodo-7B-Instruct stands out by achieving state-of-the-art performance in various tasks and languages, outperforming the benchmarks set by OpenAI’s GPT-3.5, Cohere’s Aya-101, Llama-2-Chat-13B, Mixtral-8x7B-Instruct-v0.1, Gemma-7B-it , and many more. This model not only demonstrates superior performance in both language-specific and overall assessments but also highlights its capability to excel in linguistic diversity. Our commitment to advancing language models extends beyond well-resourced languages, aiming to bridge the gap for those with limited linguistic assets. Additionally, Komodo-7B-Instruct’s better cross-language understanding contributes to addressing educational disparities in Indonesia, offering direct translations from English to 11 regional languages, a significant improvement compared to existing language translation services. Komodo-7B represents a crucial step towards inclusivity and effectiveness in language models, providing to the linguistic needs of diverse communities.

arxiv情報

著者 Louis Owen,Vishesh Tripathi,Abhay Kumar,Biddwan Ahmed
発行日 2024-03-14 13:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク