PALI: A Language Identification Benchmark for Perso-Arabic Scripts

要約

タイトル:Perso-Arabicスクリプトの言語識別ベンチマークであるPALI

要約:Perso-Arabicスクリプトは、世界中の多様な言語コミュニティで広く採用されており、このスクリプトを使用してさまざまな言語を識別することは、言語技術において重要であり、低資源な状況では困難な課題である。本論文では、特にバイリンガルコミュニティにおいて「非伝統的な」書き方が行われる場合に、Perso-Arabicスクリプトを使用して言語を検出する課題について説明している。これに対処するために、教師あり技術のセットを使用して文をそれらの言語に分類する方法を提案する。これらに基づいて、分類器によってよく混同される言語のクラスターを対象とする階層的なモデルを提案する。実験結果は、提案された解決策の効果を示している。

– Perso-Arabicスクリプトの言語識別には低資源の状況が多いため、困難な課題である。
– 本論文では、教師あり技術のセットを使用して文をそれらの言語に分類する方法を提案する。
– 分類器によってよく混同される言語のクラスターを対象とする階層的なモデルを提案することで、課題に対処する。
– 実験結果は、提案された解決策の効果を示している。

要約(オリジナル)

The Perso-Arabic scripts are a family of scripts that are widely adopted and used by various linguistic communities around the globe. Identifying various languages using such scripts is crucial to language technologies and challenging in low-resource setups. As such, this paper sheds light on the challenges of detecting languages using Perso-Arabic scripts, especially in bilingual communities where “unconventional” writing is practiced. To address this, we use a set of supervised techniques to classify sentences into their languages. Building on these, we also propose a hierarchical model that targets clusters of languages that are more often confused by the classifiers. Our experiment results indicate the effectiveness of our solutions.

arxiv情報

著者 Sina Ahmadi,Milind Agarwal,Antonios Anastasopoulos
発行日 2023-04-03 19:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク