How Far Can Cantonese NLP Go? Benchmarking Cantonese Capabilities of Large Language Models

要約

大規模言語モデル (LLM) の急速な進化により、特に英語やその他のデータが豊富な言語において、自然言語処理 (NLP) における競争環境が変わりました。
しかし、8,500万人以上が話す広東語のような過小評価されている言語は、大きな発展のギャップに直面しており、広東・香港・マカオ大湾区の経済的重要性や、シンガポールなどの広東語を話す人口が相当数いることを考えると、これは特に憂慮すべきことである。
そして北米。
広東語は広く使用されているにもかかわらず、特に同様に発展した地域の他の言語と比較すると、NLP 研究ではあまり代表されていません。
これらのギャップを埋めるために、現在の広東語 NLP 手法の概要を説明し、オープンソースの広東語 LLM テクノロジーを進歩させることを目的とした、広東語での事実生成、数理論理学、複雑な推論、および一般知識における LLM のパフォーマンスを評価するように設計された新しいベンチマークを紹介します。
また、広東語 LLM の開発を強化するための将来の研究の方向性と推奨モデルも提案します。

要約(オリジナル)

The rapid evolution of large language models (LLMs) has transformed the competitive landscape in natural language processing (NLP), particularly for English and other data-rich languages. However, underrepresented languages like Cantonese, spoken by over 85 million people, face significant development gaps, which is particularly concerning given the economic significance of the Guangdong-Hong Kong-Macau Greater Bay Area, and in substantial Cantonese-speaking populations in places like Singapore and North America. Despite its wide use, Cantonese has scant representation in NLP research, especially compared to other languages from similarly developed regions. To bridge these gaps, we outline current Cantonese NLP methods and introduce new benchmarks designed to evaluate LLM performance in factual generation, mathematical logic, complex reasoning, and general knowledge in Cantonese, which aim to advance open-source Cantonese LLM technology. We also propose future research directions and recommended models to enhance Cantonese LLM development.

arxiv情報

著者 Jiyue Jiang,Liheng Chen,Pengan Chen,Sheng Wang,Qinghang Bao,Lingpeng Kong,Yu Li,Chuan Wu
発行日 2024-08-29 17:54:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク