Combating the Curse of Multilinguality in Cross-Lingual WSD by Aligning Sparse Contextualized Word Representations

要約

この論文では、言語横断的なゼロショット語義曖昧さ回避 (WSD) で、事前にトレーニングされた大規模な単一言語言語モデルを、文脈化されたマッピング メカニズムと組み合わせて使用​​することを提唱します。
また、辞書学習手順を通じて得られたスパースな文脈化された単語表現を採用することの有効性を示す厳密な実験も報告します。
私たちの実験結果は、上記の変更により、類型的に多様な 17 のターゲット言語のセットと比較して、平均 F スコアが 6.5 ポイント近く増加(62.0 から 68.5 に)という大幅な改善が得られることを示しています。
実験を再現するためのソース コードを https://github.com/begab/sparsity_makes_sense でリリースします。

要約(オリジナル)

In this paper, we advocate for using large pre-trained monolingual language models in cross lingual zero-shot word sense disambiguation (WSD) coupled with a contextualized mapping mechanism. We also report rigorous experiments that illustrate the effectiveness of employing sparse contextualized word representations obtained via a dictionary learning procedure. Our experimental results demonstrate that the above modifications yield a significant improvement of nearly 6.5 points of increase in the average F-score (from 62.0 to 68.5) over a collection of 17 typologically diverse set of target languages. We release our source code for replicating our experiments at https://github.com/begab/sparsity_makes_sense.

arxiv情報

著者 Gábor Berend
発行日 2023-07-25 19:20:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク