EuskañolDS: A Naturally Sourced Corpus for Basque-Spanish Code-Switching

要約

コードスイッチング(CS)は、主に関連データがないため、自然言語処理(NLP)において重要な課題のままです。
イベリア半島の北にあるバスクとスペイン語の言語との接触の文脈では、CSは正式な自発的相互作用と非公式の両方の相互作用の両方で頻繁に発生します。
ただし、この現象を分析し、この言語ペアのコードスイッチング言語を理解および生成できるモデルの開発と評価をサポートするリソースはほとんど存在しません。
バスクのスペインのコードスイッチングのための自然に調達したコーパスを開発するための最初のアプローチを紹介します。
私たちの方法論は、言語識別モデルを使用して以前に利用可能なコーパスからCSテキストを識別することで構成され、CSインスタンスの信頼できるサブセットを取得するために手動で検証されます。
コーパスの特性を提示し、Euska \ 〜Noldsという名前で利用できるようにします。

要約(オリジナル)

Code-switching (CS) remains a significant challenge in Natural Language Processing (NLP), mainly due a lack of relevant data. In the context of the contact between the Basque and Spanish languages in the north of the Iberian Peninsula, CS frequently occurs in both formal and informal spontaneous interactions. However, resources to analyse this phenomenon and support the development and evaluation of models capable of understanding and generating code-switched language for this language pair are almost non-existent. We introduce a first approach to develop a naturally sourced corpus for Basque-Spanish code-switching. Our methodology consists of identifying CS texts from previously available corpora using language identification models, which are then manually validated to obtain a reliable subset of CS instances. We present the properties of our corpus and make it available under the name Euska\~nolDS.

arxiv情報

著者 Maite Heredia,Jeremy Barnes,Aitor Soroa
発行日 2025-02-05 14:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク