GlotScript: A Resource and Tool for Low Resource Writing System Identification

要約

私たちは、低リソースの書記体系を識別するためのオープン リソースおよびツールである GlotScript を紹介します。
GlotScript-R は、7,000 を超える言語に証明された書記体系を提供するリソースです。
これは、既存のライティング システム リソースからの情報を集約することによって編集されます。
GlotScript-T は、161 の Unicode 15.0 スクリプトすべてをカバーする書記体系識別ツールです。
入力テキストの場合、スクリプトが ISO 15924 コードによって識別されるスクリプト配布を返します。
また、GlotScript の 2 つの使用例も紹介します。
まず、GlotScript が mC4 や OSCAR などの多言語コーパスのクリーニングに役立つことを示します。
次に、GlotScript を使用して GPT-4 などの多数の言語モデルのトークン化を分析し、各言語モデルによる低リソースのスクリプトと言語のカバレッジに関する洞察を提供します。
私たちは、GlotScript が NLP コミュニティの低リソース言語の作業に役立つリソースになることを願っています。
GlotScript-R と GlotScript-T は https://github.com/cisnlp/GlotScript で入手できます。

要約(オリジナル)

We present GlotScript, an open resource and tool for low resource writing system identification. GlotScript-R is a resource that provides the attested writing systems for more than 7,000 languages. It is compiled by aggregating information from existing writing system resources. GlotScript-T is a writing system identification tool that covers all 161 Unicode 15.0 scripts. For an input text, it returns its script distribution where scripts are identified by ISO 15924 codes. We also present two use cases for GlotScript. First, we demonstrate that GlotScript can help cleaning multilingual corpora such as mC4 and OSCAR. Second, we analyze the tokenization of a number of language models such as GPT-4 using GlotScript and provide insights on the coverage of low resource scripts and languages by each language model. We hope that GlotScript will become a useful resource for work on low resource languages in the NLP community. GlotScript-R and GlotScript-T are available at https://github.com/cisnlp/GlotScript.

arxiv情報

著者 Amir Hossein Kargaran,François Yvon,Hinrich Schütze
発行日 2024-03-27 14:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク