A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets

要約

多言語 NLP で達成された進歩を追跡するために、類型的に多様なベンチマークがますます作成されています。
これらのデータセットの言語多様性は通常、サンプルに含まれる言語または言語ファミリーの数として測定されますが、そのような測定では、含まれる言語の構造的特性は考慮されません。
この論文では、長期的に言語多様性を最大化する手段として、参照言語サンプルに対してデータセットの言語多様性を評価することを提案します。
言語を特徴のセットとして表し、メジャーのセットを比較するのに適したバージョンの Jaccard インデックスを適用します。
類型データベースから抽出された特徴に加えて、手動で収集された特徴におけるデータの疎性というよく知られた問題を克服する手段として使用できる、自動テキストベースの測定を提案します。
私たちの多様性スコアは言語的特徴の観点から解釈可能であり、データセットで表現されていない言語の種類を識別できます。
私たちの手法を使用して、さまざまな一般的な多言語データセット (UD、Bible100、mBERT、XTREME、XGLUE、XNLI、XCOPA、TyDiQA、XQuAD) を分析します。
これらのデータセットをランク付けすることに加えて、たとえば、それらのほぼすべてに (多) 合成言語が欠落していることがわかりました。

要約(オリジナル)

Typologically diverse benchmarks are increasingly created to track the progress achieved in multilingual NLP. Linguistic diversity of these data sets is typically measured as the number of languages or language families included in the sample, but such measures do not consider structural properties of the included languages. In this paper, we propose assessing linguistic diversity of a data set against a reference language sample as a means of maximising linguistic diversity in the long run. We represent languages as sets of features and apply a version of the Jaccard index suitable for comparing sets of measures. In addition to the features extracted from typological data bases, we propose an automatic text-based measure, which can be used as a means of overcoming the well-known problem of data sparsity in manually collected features. Our diversity score is interpretable in terms of linguistic features and can identify the types of languages that are not represented in a data set. Using our method, we analyse a range of popular multilingual data sets (UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD). In addition to ranking these data sets, we find, for example, that (poly)synthetic languages are missing in almost all of them.

arxiv情報

著者 Tanja Samardzic,Ximena Gutierrez,Christian Bentz,Steven Moran,Olga Pelloni
発行日 2024-03-06 18:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク