要約
NLP で方言を調べることへの関心が高まっています。
しかし、これまでの研究のほとんどは依然として方言を個別のカテゴリーとして扱っています。
たとえば、英語のバリエーション指向の NLP における評価作業は、インド英語やアフリカ系アメリカ人の静脈英語を同種のカテゴリーとして扱うことがよくあります (Faisal et al., 2024; Ziems et al., 2023)。
変化。
方言内の変動を調査し、カテゴリ内でパフォーマンスが大きく異なることを示します。
イタリア語の方言で音声からテキストへの変換パフォーマンスを測定し、地理的なパフォーマンスの差異を経験的に観察しました。
この差異は、最もパフォーマンスの高い方言多様性との言語的類似性と実質的に (-0.5) 相関しています。
私たちは結果を方言計測法と照らし合わせて検証し、パフォーマンスの差異は、調査した音声テキスト変換モデルの標準的な多様性に類似した方言への偏りによるものであると解釈します。
さらに、地球統計学的手法を活用して、目に見えないサイトでのゼロショットのパフォーマンスを予測し、地理情報を組み込むことで予測パフォーマンスが大幅に向上することを発見し、パフォーマンスの分布に地理的構造があることを示しています。
要約(オリジナル)
There is increasing interest in looking at dialects in NLP. However, most work to date still treats dialects as discrete categories. For instance, evaluative work in variation-oriented NLP for English often works with Indian English or African-American Venacular English as homogeneous categories (Faisal et al., 2024; Ziems et al., 2023), yet even within one variety there is substantial variation. We examine within-dialect variation and show that performance critically varies within categories. We measure speech-to-text performance on Italian dialects, and empirically observe a geographical performance disparity. This disparity correlates substantially (-0.5) with linguistic similarity to the highest performing dialect variety. We cross-examine our results against dialectometry methods, and interpret the performance disparity to be due to a bias towards dialects that are more similar to the standard variety in the speech-to-text model examined. We additionally leverage geostatistical methods to predict zero-shot performance at unseen sites, and find the incorporation of geographical information to substantially improve prediction performance, indicating there to be geographical structure in the performance distribution.
arxiv情報
著者 | Ryan Soh-Eun Shim,Barbara Plank |
発行日 | 2024-10-18 16:39:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google