SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

要約

大規模言語モデル (LLM) は、さまざまなタスクにわたって優れた能力を示していますが、その開発は主に英語や中国語などの高リソース言語に集中しており、低リソース言語は十分なサービスを受けられていません。
この不均衡に対処するために、東南アジアの言語に合わせて調整された SeaLLMs モデル ファミリの最新バージョンである SeaLLMs 3 を紹介します。
この地域は豊かな言語多様性を特徴としていますが、適切な言語技術のサポートが不足していました。
SeaLLMs 3 は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話されている包括的な言語をカバーすることで、このギャップを埋めることを目指しています。
SeaLLMs 3 は、効率的な言語拡張技術と特別に構築された命令調整データセットを活用することで、高いパフォーマンスと汎用性を維持しながらトレーニング コストを大幅に削減します。
私たちのモデルは、世界の知識、数学的推論、翻訳、指示のフォローなどのタスクに優れており、同様のサイズのモデルの中で最先端のパフォーマンスを実現します。
さらに、一般的な考慮事項と文化固有の考慮事項の両方に対処することで安全性と信頼性を優先し、幻覚を軽減するメカニズムを組み込みました。
この研究は包括的な AI の重要性を強調し、高度な LLM 機能が十分なサービスを受けていない言語および文化コミュニティに利益をもたらす可能性があることを示しています。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable abilities across various tasks, yet their development has predominantly centered on high-resource languages like English and Chinese, leaving low-resource languages underserved. To address this disparity, we present SeaLLMs 3, the latest iteration of the SeaLLMs model family, tailored for Southeast Asian languages. This region, characterized by its rich linguistic diversity, has lacked adequate language technology support. SeaLLMs 3 aims to bridge this gap by covering a comprehensive range of languages spoken in this region, including English, Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao, Tamil, and Javanese. Leveraging efficient language enhancement techniques and a specially constructed instruction tuning dataset, SeaLLMs 3 significantly reduces training costs while maintaining high performance and versatility. Our model excels in tasks such as world knowledge, mathematical reasoning, translation, and instruction following, achieving state-of-the-art performance among similarly sized models. Additionally, we prioritized safety and reliability by addressing both general and culture-specific considerations and incorporated mechanisms to reduce hallucinations. This work underscores the importance of inclusive AI, showing that advanced LLM capabilities can benefit underserved linguistic and cultural communities.

arxiv情報

著者 Wenxuan Zhang,Hou Pong Chan,Yiran Zhao,Mahani Aljunied,Jianyu Wang,Chaoqun Liu,Yue Deng,Zhiqiang Hu,Weiwen Xu,Yew Ken Chia,Xin Li,Lidong Bing
発行日 2024-07-29 03:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク