GRDD: A Dataset for Greek Dialectal NLP

要約

この論文では、多くの現代ギリシャ語方言の計算研究のためのデータセットを紹介します。
これは、現代ギリシャ語、クレタ語、ポントス語、北方ギリシャ語、キプロス語ギリシャ語の 4 つの方言の生のテキスト データで構成されています。
このデータセットは、不均衡ではあるもののかなりのサイズであり、現代ギリシャ語方言についてこのタイプの大規模な方言リソースを作成する最初の試みを示しています。
次に、データセットを使用して方言の識別を実行します。
私たちは、単純な DL アーキテクチャだけでなく、従来の ML アルゴリズムも実験します。
結果は、タスクで非常に優れたパフォーマンスを示しており、問題の方言が、単純な ML モデルでもタスクで適切に実行できる十分な特徴を備えていることが潜在的に明らかになります。
最もパフォーマンスの高いアルゴリズムに対してエラー分析が実行され、多くの場合、エラーがデータセットのクリーニングが不十分であることが原因であることが示されています。

要約(オリジナル)

In this paper, we present a dataset for the computational study of a number of Modern Greek dialects. It consists of raw text data from four dialects of Modern Greek, Cretan, Pontic, Northern Greek and Cypriot Greek. The dataset is of considerable size, albeit imbalanced, and presents the first attempt to create large scale dialectal resources of this type for Modern Greek dialects. We then use the dataset to perform dialect idefntification. We experiment with traditional ML algorithms, as well as simple DL architectures. The results show very good performance on the task, potentially revealing that the dialects in question have distinct enough characteristics allowing even simple ML models to perform well on the task. Error analysis is performed for the top performing algorithms showing that in a number of cases the errors are due to insufficient dataset cleaning.

arxiv情報

著者 Stergios Chatzikyriakidis,Chatrine Qwaider,Ilias Kolokousis,Christina Koula,Dimitris Papadakis,Efthymia Sakellariou
発行日 2023-09-13 14:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク