要約
言語モデルの領域では、台湾で話されている繁体字中国語の微妙な言語的および文化的複雑さはほとんど無視されてきました。
この文書では、台湾で使用される中国語のバリアントに焦点を当て、特に繁体字中国語に対応する先駆的な大規模言語モデルである台湾 LLM を紹介します。
包括的な事前トレーニング コーパスと指導の微調整データセットを活用して、繁体字中国語の複雑さを理解するだけでなく、台湾の文化的背景も体現するモデルを開発しました。
台湾 LLM は、言語的に正確であるだけでなく、文化的にもユーザー ベースと共鳴する、この種のものでは初めてのモデルです。
私たちの評価では、Taiwan LLM が繁体字中国語テキストの理解と生成において優れたパフォーマンスを達成し、主に簡体字中国語または英語でトレーニングされた既存のモデルを上回るパフォーマンスを示していることが実証されています。
台湾 LLM のオープンソース リリースはコラボレーションとさらなる革新を促し、中国語話者の言語的多様性が確実に受け入れられ、十分なサービスが提供されるようにします。
モデル、データセット、その他のリソースは、この分野で進行中の研究開発を促進するために一般に公開されています。
要約(オリジナル)
In the realm of language models, the nuanced linguistic and cultural intricacies of Traditional Chinese, as spoken in Taiwan, have been largely overlooked. This paper introduces Taiwan LLM, a pioneering Large Language Model that specifically caters to the Traditional Chinese language, with a focus on the variant used in Taiwan. Leveraging a comprehensive pretraining corpus and instruction-finetuning datasets, we have developed a model that not only understands the complexities of Traditional Chinese but also embodies the cultural context of Taiwan. Taiwan LLM represents the first of its kind, a model that is not only linguistically accurate but also culturally resonant with its user base. Our evaluations demonstrate that Taiwan LLM achieves superior performance in understanding and generating Traditional Chinese text, outperforming existing models that are predominantly trained on Simplified Chinese or English. The open-source release of Taiwan LLM invites collaboration and further innovation, ensuring that the linguistic diversity of Chinese speakers is embraced and well-served. The model, datasets, and further resources are made publicly available to foster ongoing research and development in this field.
arxiv情報
著者 | Yen-Ting Lin,Yun-Nung Chen |
発行日 | 2023-11-29 09:48:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google