Code-Switched Language Identification is Harder Than You Think

要約

コードスイッチング(CS)は、書き言葉や話し言葉のコミュニケーションにおいて非常に一般的な現象であるが、多くの自然言語処理アプリケーションではうまく扱われていない。CSコーパス構築のアプリケーションに注目し、コーパス構築のためのCS言語識別(LID)を探求する。より多くの言語に拡張し、より高速な推論を行うために、より単純なアーキテクチャのモデルを考慮することで、タスクをより現実的なものにする。また、より扱いやすくするために、タスクを文レベルのマルチラベルタギング問題として再定式化する。タスクを定義した後、このタスクに対する3つの妥当なモデルを調査し、望ましい性能をより良く反映するメトリクスを定義する。現在のアプローチが適切でないことを示す経験的証拠を提示し、最後にこの分野における将来の研究に対する提言を行う。

要約(オリジナル)

Code switching (CS) is a very common phenomenon in written and spoken communication but one that is handled poorly by many natural language processing applications. Looking to the application of building CS corpora, we explore CS language identification (LID) for corpus building. We make the task more realistic by scaling it to more languages and considering models with simpler architectures for faster inference. We also reformulate the task as a sentence-level multi-label tagging problem to make it more tractable. Having defined the task, we investigate three reasonable models for this task and define metrics which better reflect desired performance. We present empirical evidence that no current approach is adequate and finally provide recommendations for future work in this area.

arxiv情報

著者 Laurie Burchell,Alexandra Birch,Robert P. Thompson,Kenneth Heafield
発行日 2024-02-02 15:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク