Translate to Disambiguate: Zero-shot Multilingual Word Sense Disambiguation with Pretrained Language Models

要約

タイトル: プレトレーニング言語モデルによる多言語語義曖昧性解消におけるゼロ・ショット方式の翻訳による解消

要約:
– プレトレーニング言語モデル(PLMs)は多言語の知識を学習し、翻訳や多言語語義曖昧性解消(WSD)などの多様なタスクで良好なパフォーマンスを発揮できるが、ゼロ・ショット設定における語義曖昧性解消には苦戦することがある。
– 著者たちは、Contexual Word-Level Translation(C-WLT)という情報源拡張によって単語をうまく翻訳することを促す手法を使って、PLMsがクロスリンガル語義をどの程度捉えているかを調べた。
– 研究の結果、モデルサイズが大きくなるほど、PLMsがクロスリンガル語義の表現を良く学習し、コンテキストをうまく利用してWLTのパフォーマンスを改善することができることが示された。
– C-WLTをベースに、18の言語でXL-WSDデータセット上でゼロ・ショット方式のWSDを行い、追加訓練やファインチューニングが必要なく、多くの評価言語においてフルスーパーバイズラインを上回るリコール性能を示した。
– 本研究は、どの言語でも堅牢なゼロ・ショット推論を行うためにPLMsのクロスリンガル知識を最大限に活用する方法を理解するための初めのステップを示している。

要約(オリジナル)

Pretrained Language Models (PLMs) learn rich cross-lingual knowledge and can be finetuned to perform well on diverse tasks such as translation and multilingual word sense disambiguation (WSD). However, they often struggle at disambiguating word sense in a zero-shot setting. To better understand this contrast, we present a new study investigating how well PLMs capture cross-lingual word sense with Contextual Word-Level Translation (C-WLT), an extension of word-level translation that prompts the model to translate a given word in context. We find that as the model size increases, PLMs encode more cross-lingual word sense knowledge and better use context to improve WLT performance. Building on C-WLT, we introduce a zero-shot approach for WSD, tested on 18 languages from the XL-WSD dataset. Our method outperforms fully supervised baselines on recall for many evaluation languages without additional training or finetuning. This study presents a first step towards understanding how to best leverage the cross-lingual knowledge inside PLMs for robust zero-shot reasoning in any language.

arxiv情報

著者 Haoqiang Kang,Terra Blevins,Luke Zettlemoyer
発行日 2023-04-26 19:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク