NSINA: A News Corpus for Sinhala

要約

大規模言語モデル (LLM) の導入により、自然言語処理 (NLP) が高度になりましたが、その有効性は事前トレーニング リソースに大きく依存します。
これは、シンハラ語などのリソースが少ない言語で特に顕著であり、実質的なトレーニング データの欠如とベンチマーク データセットの制限という 2 つの主要な課題に直面しています。
これに応えて、この研究では、人気のシンハラ語ニュース Web サイトからの 500,000 件を超える記事の包括的なニュース コーパスである NSINA と、ニュース メディアの識別、ニュース カテゴリの予測、ニュース ヘッドラインの生成という 3 つの NLP タスクを導入します。
NSINA のリリースは、LLM をシンハラ語に適応させる際の課題に対する解決策を提供することを目的としており、シンハラ語での NLP を改善するための貴重なリソースとベンチマークを提供します。
NSINA は、最新の情報を入手できるシンハラ語の最大のニュース コーパスです。

要約(オリジナル)

The introduction of large language models (LLMs) has advanced natural language processing (NLP), but their effectiveness is largely dependent on pre-training resources. This is especially evident in low-resource languages, such as Sinhala, which face two primary challenges: the lack of substantial training data and limited benchmarking datasets. In response, this study introduces NSINA, a comprehensive news corpus of over 500,000 articles from popular Sinhala news websites, along with three NLP tasks: news media identification, news category prediction, and news headline generation. The release of NSINA aims to provide a solution to challenges in adapting LLMs to Sinhala, offering valuable resources and benchmarks for improving NLP in the Sinhala language. NSINA is the largest news corpus for Sinhala, available up to date.

arxiv情報

著者 Hansi Hettiarachchi,Damith Premasiri,Lasitha Uyangodage,Tharindu Ranasinghe
発行日 2024-03-25 09:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク