MaskLID: Code-Switching Language Identification through Iterative Masking

要約

シンプルかつ効果的なコードスイッチング (CS) 言語識別 (LID) メソッドである MaskLID を紹介します。
MaskLID はトレーニングを必要とせず、現在の高性能な文レベルの LID を補完するように設計されています。
文レベルの LID は、単一のラベルを提供するために単言語テキストでトレーニングされた分類子であり、通常はソフトマックス レイヤーを使用してスコアを確率に変換します。
ただし、文が L1 言語と L2 言語の両方で構成されている場合、LID 分類器は支配的なラベル L1 のみを返すことがよくあります。
この制限に対処するために、MaskLID は L1 に関連付けられたテキストの特徴をマスクする戦略を採用し、LID が次のラウンドでテキストを L2 として分類できるようにします。
この方法では、LID 自体を使用してマスキングが必要な機能を特定し、外部リソースには依存しません。
この作業では、両方とも FastText アーキテクチャに基づいている 2 つのオープンソース LID (GlotLID と OpenLID) に対する MaskLID の使用を検討します。
コードとデモは https://github.com/cisnlp/MaskLID で入手できます。

要約(オリジナル)

We present MaskLID, a simple, yet effective, code-switching (CS) language identification (LID) method. MaskLID does not require any training and is designed to complement current high-performance sentence-level LIDs. Sentence-level LIDs are classifiers trained on monolingual texts to provide single labels, typically using a softmax layer to turn scores into probabilities. However, in cases where a sentence is composed in both L1 and L2 languages, the LID classifier often only returns the dominant label L1. To address this limitation, MaskLID employs a strategy to mask text features associated with L1, allowing the LID to classify the text as L2 in the next round. This method uses the LID itself to identify the features that require masking and does not rely on any external resource. In this work, we explore the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are both based on the FastText architecture. Code and demo are available at https://github.com/cisnlp/MaskLID.

arxiv情報

著者 Amir Hossein Kargaran,François Yvon,Hinrich Schütze
発行日 2024-06-10 13:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク