要約
自然言語理解システムは、高リソースの言語の多くの方言を含む、リソースの低い言語と格闘しています。
方言から標準の正規化は、方言テキストを下流に使用できるように方言テキストを変換することにより、この問題に取り組むことを試みます。
この研究では、並列データを必要とせずに、ルールベースの言語的に情報に基づいた変換と大規模な言語モデル(LLM)とターゲットを絞った少数のプロンプトと組み合わせた新しい正規化方法を導入することにより、このタスクに取り組みます。
ギリシャ語の方言の方法を実装し、地域のことわざのデータセットに適用し、人間のアノテーターを使用して出力を評価します。
次に、このデータセットを使用して下流の実験を行い、これらのことわざに関する以前の結果は、正書法のアーティファクトを含む表面的な言語情報のみに依存していることを発見しましたが、残りの意味論を通して新しい観察を行うことができます。
要約(オリジナル)
Natural language understanding systems struggle with low-resource languages, including many dialects of high-resource ones. Dialect-to-standard normalization attempts to tackle this issue by transforming dialectal text so that it can be used by standard-language tools downstream. In this study, we tackle this task by introducing a new normalization method that combines rule-based linguistically informed transformations and large language models (LLMs) with targeted few-shot prompting, without requiring any parallel data. We implement our method for Greek dialects and apply it on a dataset of regional proverbs, evaluating the outputs using human annotators. We then use this dataset to conduct downstream experiments, finding that previous results regarding these proverbs relied solely on superficial linguistic information, including orthographic artifacts, while new observations can still be made through the remaining semantics.
arxiv情報
著者 | Antonios Dimakis,John Pavlopoulos,Antonios Anastasopoulos |
発行日 | 2025-06-10 15:34:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google