SeaLLMs — Large Language Models for Southeast Asia

要約

さまざまなタスクにおける大規模言語モデル (LLM) の目覚ましい成果にもかかわらず、英語などの高リソース言語を好む言語バイアスが依然として存在し、多くの場合、低リソース言語や地域言語が犠牲になっています。
この不均衡に対処するために、特に東南アジア (SEA) 言語に焦点を当てた革新的な言語モデル シリーズである SeaLLM を導入します。
SeaLLM は Llama-2 モデルに基づいて構築されており、拡張された語彙、専門的な指導、および地域言語の複雑さをよりよく理解するための調整による継続的な事前トレーニングを通じてさらに進化しました。
これにより、地域の文化規範、習慣、文体の好み、法的考慮事項を尊重し、反映することができます。
私たちの包括的な評価では、SeaLLM-13b モデルが、同等のオープンソース モデルと比較して、幅広い言語タスクおよびアシスタント スタイルの指示追従機能にわたって優れたパフォーマンスを発揮することが実証されています。
さらに、タイ語、クメール語、ラオス語、ビルマ語などの非ラテン語では ChatGPT-3.5 よりも大幅に性能が優れており、軽量かつコスト効率の高い運用を維持します。

要約(オリジナル)

Despite the remarkable achievements of large language models (LLMs) in various tasks, there remains a linguistic bias that favors high-resource languages, such as English, often at the expense of low-resource and regional languages. To address this imbalance, we introduce SeaLLMs, an innovative series of language models that specifically focuses on Southeast Asian (SEA) languages. SeaLLMs are built upon the Llama-2 model and further advanced through continued pre-training with an extended vocabulary, specialized instruction and alignment tuning to better capture the intricacies of regional languages. This allows them to respect and reflect local cultural norms, customs, stylistic preferences, and legal considerations. Our comprehensive evaluation demonstrates that SeaLLM-13b models exhibit superior performance across a wide spectrum of linguistic tasks and assistant-style instruction-following capabilities relative to comparable open-source models. Moreover, they outperform ChatGPT-3.5 in non-Latin languages, such as Thai, Khmer, Lao, and Burmese, by large margins while remaining lightweight and cost-effective to operate.

arxiv情報

著者 Xuan-Phi Nguyen,Wenxuan Zhang,Xin Li,Mahani Aljunied,Zhiqiang Hu,Chenhui Shen,Yew Ken Chia,Xingxuan Li,Jianyu Wang,Qingyu Tan,Liying Cheng,Guanzheng Chen,Yue Deng,Sen Yang,Chaoqun Liu,Hang Zhang,Lidong Bing
発行日 2024-07-01 05:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク