SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods

要約

このペーパーでは、低リソース言語の高品質の評価データセットの重要なニーズに対処し、横断的な転送を進めます。
横断的な転送は、言語技術を拡張して類型的に多様な言語に拡張するために多言語の事前トレーニングを活用するための重要な戦略を提供しますが、その有効性は品質と適切なベンチマークに依存しています。
多様な言語ファミリやスクリプトにわたって9つの低リソース言語にまたがるポリシーワードを含む文の新しい感覚解釈データセットをリリースします。
データセットの作成を容易にするために、この論文は、明らかに有益な半自動アノテーション法を示します。
データセットのユーティリティは、これらの低リソース言語での転送を評価するWord-in-context(WIC)形式の実験を通じて実証されています。
結果は、低リソースの設定と転送研究における効果的な多さの曖昧性を除去するためのターゲットを絞ったデータセットの作成と評価の重要性を強調しています。
リリースされたデータセットとコードは、公正で堅牢で、真に多言語NLPのさらなる研究をサポートすることを目的としています。

要約(オリジナル)

This paper addresses the critical need for high-quality evaluation datasets in low-resource languages to advance cross-lingual transfer. While cross-lingual transfer offers a key strategy for leveraging multilingual pretraining to expand language technologies to understudied and typologically diverse languages, its effectiveness is dependent on quality and suitable benchmarks. We release new sense-annotated datasets of sentences containing polysemous words, spanning nine low-resource languages across diverse language families and scripts. To facilitate dataset creation, the paper presents a demonstrably beneficial semi-automatic annotation method. The utility of the datasets is demonstrated through Word-in-Context (WiC) formatted experiments that evaluate transfer on these low-resource languages. Results highlight the importance of targeted dataset creation and evaluation for effective polysemy disambiguation in low-resource settings and transfer studies. The released datasets and code aim to support further research into fair, robust, and truly multilingual NLP.

arxiv情報

著者 Roksana Goworek,Harpal Karlcut,Muhammad Shezad,Nijaguna Darshana,Abhishek Mane,Syam Bondada,Raghav Sikka,Ulvi Mammadov,Rauf Allahverdiyev,Sriram Purighella,Paridhi Gupta,Muhinyia Ndegwa,Haim Dubossarsky
発行日 2025-05-29 17:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク