Multilingual Lexical Simplification via Paraphrase Generation

要約

事前トレーニングされた言語モデルに基づく語彙単純化 (LS) 手法は目覚ましい進歩を遂げ、文脈の周囲の分析を通じて複雑な単語の潜在的な代替語を生成します。
ただし、これらの方法では、言語ごとに個別の事前トレーニングされたモデルが必要であり、文の意味の保持は無視されます。
この論文では、言い換えは文の意味を維持しながら単語選択の多様性を提供するため、言い換え生成による新しい多言語 LS 手法を提案します。
私たちは、言い換えを、数百の言語をサポートする多言語ニューラル機械翻訳におけるゼロショット翻訳タスクとみなしています。
入力文を言い換えモデリングのエンコーダーに入力した後、複合単語の語彙変化のみに焦点を当てた新しいデコード戦略に基づいて置換文を生成します。
実験結果は、私たちのアプローチが英語、スペイン語、ポルトガル語に関して BERT ベースの方法およびゼロショット GPT3 ベースの方法を大幅に上回ることを示しています。

要約(オリジナル)

Lexical simplification (LS) methods based on pretrained language models have made remarkable progress, generating potential substitutes for a complex word through analysis of its contextual surroundings. However, these methods require separate pretrained models for different languages and disregard the preservation of sentence meaning. In this paper, we propose a novel multilingual LS method via paraphrase generation, as paraphrases provide diversity in word selection while preserving the sentence’s meaning. We regard paraphrasing as a zero-shot translation task within multilingual neural machine translation that supports hundreds of languages. After feeding the input sentence into the encoder of paraphrase modeling, we generate the substitutes based on a novel decoding strategy that concentrates solely on the lexical variations of the complex word. Experimental results demonstrate that our approach surpasses BERT-based methods and zero-shot GPT3-based method significantly on English, Spanish, and Portuguese.

arxiv情報

著者 Kang Liu,Jipeng Qiang,Yun Li,Yunhao Yuan,Yi Zhu,Kaixun Hua
発行日 2023-07-28 03:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク