要約
地域や文化に特有の知識 (人々、伝統、食べ物など) の多くは、方言で書かれた文書でのみ見つけることができます。
言語横断情報検索 (CLIR) については広範な研究が行われてきましたが、方言横断検索 (CDIR) の分野はあまり注目されていません。
方言検索は、検索モデルをトレーニングするためのリソースが限られていることと、標準化されていない言語のばらつきが大きいため、独特の課題を引き起こします。
私たちはドイツ語の方言を例にこれらの課題を研究し、WikiDIR と呼ばれる初のドイツ語方言検索データセットを紹介します。このデータセットは、Wikipedia から抽出された 7 つのドイツ語方言で構成されています。
WikiDIR を使用して、方言における高度な語彙変動を扱う際の語彙手法の弱点を示します。
さらに、多言語エンコーダで一般的に使用されるゼロショットの言語間転送アプローチは、リソースが非常に少ないセットアップにはうまく転送できず、リソース効率の高い方言固有の検索モデルの必要性を刺激することを示します。
最後に、(文書) 翻訳が CDIR の方言ギャップを減らす効果的な方法であることを示します。
要約(オリジナル)
A large amount of local and culture-specific knowledge (e.g., people, traditions, food) can only be found in documents written in dialects. While there has been extensive research conducted on cross-lingual information retrieval (CLIR), the field of cross-dialect retrieval (CDIR) has received limited attention. Dialect retrieval poses unique challenges due to the limited availability of resources to train retrieval models and the high variability in non-standardized languages. We study these challenges on the example of German dialects and introduce the first German dialect retrieval dataset, dubbed WikiDIR, which consists of seven German dialects extracted from Wikipedia. Using WikiDIR, we demonstrate the weakness of lexical methods in dealing with high lexical variation in dialects. We further show that commonly used zero-shot cross-lingual transfer approach with multilingual encoders do not transfer well to extremely low-resource setups, motivating the need for resource-lean and dialect-specific retrieval models. We finally demonstrate that (document) translation is an effective way to reduce the dialect gap in CDIR.
arxiv情報
著者 | Robert Litschko,Oliver Kraus,Verena Blaschke,Barbara Plank |
発行日 | 2025-01-06 16:27:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google