要約
言語の識別は、特に多言語やビッグデータのコンテキストにおいて、言語リソースの自動生成において重要なコンポーネントです。
ただし、一般的に使用される言語識別子は、類似した言語または密接に関連した言語を区別するのが困難です。
この文書では、テキストにどの言語を割り当てるかを決定する前に洗練されたセカンドオピニオンを得ることを目的として、fastText (事前トレーニングされた言語識別子ツール) と Hunspell (スペルチェッカー) を組み合わせた言語識別子である FastSpell を紹介します。
FastSpell アルゴリズムの説明と、その使用方法および構成方法についての説明を提供します。
そのために、私たちはそのようなツールの必要性を促し、FastSpell の開発中に評価されたいくつかの一般的な言語識別子を含むベンチマークを提示します。
FastSpell が類似言語の識別を向上させるだけでなく、他のツールによって無視される新しい言語を識別するのにもどのように役立つかを示します。
要約(オリジナル)
Language identification is a crucial component in the automated production of language resources, particularly in multilingual and big data contexts. However, commonly used language identifiers struggle to differentiate between similar or closely-related languages. This paper introduces FastSpell, a language identifier that combines fastText (a pre-trained language identifier tool) and Hunspell (a spell checker) with the aim of having a refined second-opinion before deciding which language should be assigned to a text. We provide a description of the FastSpell algorithm along with an explanation on how to use and configure it. To that end, we motivate the need of such a tool and present a benchmark including some popular language identifiers evaluated during the development of FastSpell. We show how FastSpell is useful not only to improve identification of similar languages, but also to identify new ones ignored by other tools.
arxiv情報
著者 | Marta Bañón,Jaume Zaragoza-Bernabeu,Gema Ramírez-Sánchez,Sergio Ortiz-Rojas |
発行日 | 2024-04-12 09:21:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google