要約
大規模言語モデル (LLM) は、多数のベンチマークで優れており、言語タスクと非言語タスクの両方で AI アプリケーションを進歩させています。
ただし、これは主にリソースが豊富な言語に利益をもたらし、リソースの少ない言語 (LRL) は不利な状況に残ります。
この論文では、キルギス ティリという特定の LRL における NLP フィールドの現状に焦点を当てます。
ネイティブ スピーカーによって作成された注釈付きデータセットを含む人間による評価は、特に自動評価では不十分な可能性がある LRL において、信頼性の高い NLP パフォーマンスのかけがえのない要素であり続けます。
チュルク語のリソースに関する最近の評価では、キルギス語は「スクレイピング・バイ」というステータスに分類されており、数百万人が話している深刻なリソース不足の言語です。
キルギスだけでなく、この言語が公的地位を持たない離散コミュニティの間でも、この言語の重要性が高まっていることを考えると、これは憂慮すべきことである。
私たちは、この分野でのこれまでの取り組みをレビューし、辞書以外のいくつかの例外を除いて、公開されているリソースの多くが最近開発されたばかりであることに留意します (分析に使用された処理済みデータは https://kyrgyznlp.github.io/ に示されています)。
最近の論文はある程度の進歩を遂げていますが、やるべきことはまだたくさんあります。
キルギス共和国では企業と政府部門の両方からの関心と支援にもかかわらず、キルギス語リソースの状況は依然として困難です。
私たちは、これらのリソースを構築し、将来の進歩の持続可能性を確保するためのコミュニティ主導の取り組みの重要性を強調します。
次に、キルギスの NLP における最も差し迫った課題についての私たちの見解を共有します。
最後に、研究テーマと言語リソースの観点から、将来の開発に向けたロードマップを提案します。
要約(オリジナル)
Large language models (LLMs) have excelled in numerous benchmarks, advancing AI applications in both linguistic and non-linguistic tasks. However, this has primarily benefited well-resourced languages, leaving less-resourced ones (LRLs) at a disadvantage. In this paper, we highlight the current state of the NLP field in the specific LRL: kyrgyz tili. Human evaluation, including annotated datasets created by native speakers, remains an irreplaceable component of reliable NLP performance, especially for LRLs where automatic evaluations can fall short. In recent assessments of the resources for Turkic languages, Kyrgyz is labeled with the status ‘Scraping By’, a severely under-resourced language spoken by millions. This is concerning given the growing importance of the language, not only in Kyrgyzstan but also among diaspora communities where it holds no official status. We review prior efforts in the field, noting that many of the publicly available resources have only recently been developed, with few exceptions beyond dictionaries (the processed data used for the analysis is presented at https://kyrgyznlp.github.io/). While recent papers have made some headway, much more remains to be done. Despite interest and support from both business and government sectors in the Kyrgyz Republic, the situation for Kyrgyz language resources remains challenging. We stress the importance of community-driven efforts to build these resources, ensuring the future advancement sustainability. We then share our view of the most pressing challenges in Kyrgyz NLP. Finally, we propose a roadmap for future development in terms of research topics and language resources.
arxiv情報
著者 | Anton Alekseev,Timur Turatali |
発行日 | 2024-11-08 12:03:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google