Overview of GUA-SPA at IberLEF 2023: Guarani-Spanish Code Switching Analysis


私たちは、IberLEF 2023 で、グアラニー語とスペイン語のコードスイッチングを検出および分析するための最初の共有タスク、GUA-SPA を発表しました。この課題は、トークンの言語 NER を識別するタスクと、トークンの方法を分類する新しいタスクの 3 つのタスクで構成されていました。
私たちはニュース記事やツイートから抽出した 1500 のテキスト、約 25,000 のトークンのコーパスにタスクの情報を注釈付けしました。
3 つのチームが評価フェーズに参加し、タスク 1 では概ね良好な結果が得られましたが、タスク 2 と 3 ではさらに複雑な結果が得られました。


We present the first shared task for detecting and analyzing code-switching in Guarani and Spanish, GUA-SPA at IberLEF 2023. The challenge consisted of three tasks: identifying the language of a token, NER, and a novel task of classifying the way a Spanish span is used in the code-switched context. We annotated a corpus of 1500 texts extracted from news articles and tweets, around 25 thousand tokens, with the information for the tasks. Three teams took part in the evaluation phase, obtaining in general good results for Task 1, and more mixed results for Tasks 2 and 3.


著者 Luis Chiruzzo,Marvin Agüero-Torales,Gustavo Giménez-Lugo,Aldo Alvarez,Yliana Rodríguez,Santiago Góngora,Thamar Solorio
発行日 2023-09-12 12:18:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク