Multi-label Scandinavian Language Identification (SLIDE)

要約

文レベルで密接に関連する言語を識別することは困難です。特に、文を単一の言語に割り当てることは不可能であることが多いためです。
この論文では、デンマーク語、ノルウェーのボクム\ r {a} l、ノルウェー・ニノルスク、およびスウェーデン語のマルチラベル文レベルのスカンジナビア語識別(蓋)に焦点を当てています。
スカンジナビアの言語の識別と評価、スライド、手動でキュレーションされたマルチラベル評価データセット、速度accuuracyのトレードオフが異なる蓋のスイートを提示します。
複数の言語を同時に識別する能力が正確な蓋法に必要であることを実証し、そのようなマルチラベル蓋モデルをトレーニングするための新しいアプローチを提示することを実証します。

要約(オリジナル)

Identifying closely related languages at sentence level is difficult, in particular because it is often impossible to assign a sentence to a single language. In this paper, we focus on multi-label sentence-level Scandinavian language identification (LID) for Danish, Norwegian Bokm\r{a}l, Norwegian Nynorsk, and Swedish. We present the Scandinavian Language Identification and Evaluation, SLIDE, a manually curated multi-label evaluation dataset and a suite of LID models with varying speed-accuracy tradeoffs. We demonstrate that the ability to identify multiple languages simultaneously is necessary for any accurate LID method, and present a novel approach to training such multi-label LID models.

arxiv情報

著者 Mariia Fedorova,Jonas Sebulon Frydenberg,Victoria Handford,Victoria Ovedie Chruickshank Langø,Solveig Helene Willoch,Marthe Løken Midtgaard,Yves Scherrer,Petter Mæhlum,David Samuel
発行日 2025-02-10 17:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク