Quantifying the Dialect Gap and its Correlates Across Languages

要約

歴史的に、研究者や消費者は、NLP ツールを少数派の言語 (プエルトリコのスペイン語やスイスのドイツ語など) に適用すると品質が低下することに気づきましたが、これを調査した研究は選ばれた少数の言語に限定されていました。
さらに、過去の研究は主に単一言語の状況で実施されていたため、言語を越えた傾向は特定されておらず、外部要因と関連付けられていませんでした。
この研究では、機械翻訳と自動音声認識という 2 つの頻繁に使用されるアプリケーションにわたって、最も影響力のある最先端の大規模言語モデル (LLM) の包括的な評価を実施し、地域の方言に対する機能を評価します。
いくつかの高リソース言語と低リソース言語。
さらに、地域の方言ギャップが経済的、社会的、言語的要因とどのように相関しているかを分析します。
データセットのサイズやその構築手順などの関連要素を含むトレーニング データの影響は、重要であることが示されていますが、モデルや言語間で一貫していないため、方言のギャップを解決するために画一的なアプローチを採用することはできません。
この研究は、明らかな差異を明らかにし、注意深いデータ収集を通じてそれらに対処するための可能な経路を特定することにより、方言 NLP の分野を推進するための基礎を築くでしょう。

要約(オリジナル)

Historically, researchers and consumers have noticed a decrease in quality when applying NLP tools to minority variants of languages (i.e. Puerto Rican Spanish or Swiss German), but studies exploring this have been limited to a select few languages. Additionally, past studies have mainly been conducted in a monolingual context, so cross-linguistic trends have not been identified and tied to external factors. In this work, we conduct a comprehensive evaluation of the most influential, state-of-the-art large language models (LLMs) across two high-use applications, machine translation and automatic speech recognition, to assess their functionality on the regional dialects of several high- and low-resource languages. Additionally, we analyze how the regional dialect gap is correlated with economic, social, and linguistic factors. The impact of training data, including related factors like dataset size and its construction procedure, is shown to be significant but not consistent across models or languages, meaning a one-size-fits-all approach cannot be taken in solving the dialect gap. This work will lay the foundation for furthering the field of dialectal NLP by laying out evident disparities and identifying possible pathways for addressing them through mindful data collection.

arxiv情報

著者 Anjali Kantharuban,Ivan Vulić,Anna Korhonen
発行日 2023-10-23 17:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク