Unsupervised Lexical Simplification with Context Augmentation

要約

我々は、単一言語データと事前訓練された言語モデルのみを使用する新しい教師なし語彙簡略化手法を提案します。
ターゲットの単語とそのコンテキストが与えられると、私たちのメソッドは、ターゲットのコンテキストに基づいて代替語を生成し、さらに単言語データからサンプリングされた追加のコンテキストも生成します。
私たちは TSAR-2022 共有タスクに関して英語、ポルトガル語、スペイン語で実験を実施し、すべての言語において私たちのモデルが他の教師なしシステムよりも大幅に優れていることを示しました。
また、当社のモデルを GPT-3.5 とアンサンブルすることにより、新たな最先端技術を確立します。
最後に、SWORDS 字句置換データ セットに基づいてモデルを評価し、最先端の結果を達成します。

要約(オリジナル)

We propose a new unsupervised lexical simplification method that uses only monolingual data and pre-trained language models. Given a target word and its context, our method generates substitutes based on the target context and also additional contexts sampled from monolingual data. We conduct experiments in English, Portuguese, and Spanish on the TSAR-2022 shared task, and show that our model substantially outperforms other unsupervised systems across all languages. We also establish a new state-of-the-art by ensembling our model with GPT-3.5. Lastly, we evaluate our model on the SWORDS lexical substitution data set, achieving a state-of-the-art result.

arxiv情報

著者 Takashi Wada,Timothy Baldwin,Jey Han Lau
発行日 2023-11-01 05:48:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク