Low-resource Bilingual Dialect Lexicon Induction with Large Language Models




– バイリンガル語彙レキシコンは、多言語自然言語理解や機械翻訳において非常に重要なツールである。
– バイリンガル語彙レキシコン導出には、ビットテキストマイニングと単語アライメントの2つの非監督学習ステップで構成されるパイプラインが使用される。
– 本論文では、低リソースシナリオでのバイリンガル方言(バイエルン語およびアレマン語)に対するBLIパイプラインの分析を提案する。
– このセットアップには、リソースの不足、言語の関連性、方言の正書法の標準化の欠如などの独自の課題がある。
– 語彙レキシコンの出力を評価するために、単語頻度とペアワイズ編集距離について分析し、評価データセットを公開した。
– 評価データセットは、バイエルン語-ドイツ語、アレマン語-ドイツ語のそれぞれの言語ペアについて、意味的類似性が手動で判断された。


Bilingual word lexicons are crucial tools for multilingual natural language understanding and machine translation tasks, as they facilitate the mapping of words in one language to their synonyms in another language. To achieve this, numerous papers have explored bilingual lexicon induction (BLI) in high-resource scenarios, using a typical pipeline consisting of two unsupervised steps: bitext mining and word alignment, both of which rely on pre-trained large language models~(LLMs). In this paper, we present an analysis of the BLI pipeline for German and two of its dialects, Bavarian and Alemannic. This setup poses several unique challenges, including the scarcity of resources, the relatedness of the languages, and the lack of standardization in the orthography of dialects. To evaluate the BLI outputs, we analyze them with respect to word frequency and pairwise edit distance. Additionally, we release two evaluation datasets comprising 1,500 bilingual sentence pairs and 1,000 bilingual word pairs. They were manually judged for their semantic similarity for each Bavarian-German and Alemannic-German language pair.


著者 Ekaterina Artemova,Barbara Plank
発行日 2023-04-19 20:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク