Discriminating Between Similar Nordic Languages

要約

自動言語識別は難しい問題です。
密接に関連する言語を区別することは特に困難です。
このホワイト ペーパーでは、既存の最先端ツールによる誤分類に悩まされることが多い北欧言語の自動言語識別のための機械学習アプローチを紹介します。
具体的には、デンマーク語、スウェーデン語、ノルウェー語 (ニーノシュク語)、ノルウェー語 (ブーク語)、フェロー語、アイスランド語の 6 つの北欧言語の区別に焦点を当てます。

要約(オリジナル)

Automatic language identification is a challenging problem. Discriminating between closely related languages is especially difficult. This paper presents a machine learning approach for automatic language identification for the Nordic languages, which often suffer miscategorisation by existing state-of-the-art tools. Concretely we will focus on discrimination between six Nordic languages: Danish, Swedish, Norwegian (Nynorsk), Norwegian (Bokm{\aa}l), Faroese and Icelandic.

arxiv情報

著者 René Haas,Leon Derczynski
発行日 2023-03-23 04:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク