要約
Lexical Simplification (LS) は、テキストを語彙レベルで単純化することを目的としています。
既存の手法は注釈付きデータに大きく依存しているため、リソースが少ないシナリオに適用するのが困難です。
本稿では、並列コーパスを用いない新しいLS手法を提案する。
この方法では、混同損失と不変損失からのガイダンスを備えた敵対的編集システムを使用して、元の文の語彙編集を予測します。
一方、革新的な LLM 拡張損失を導入して、大規模言語モデル (LLM) から小規模な LS システムへの知識の蒸留を可能にします。
そこから、文内の複雑な単語がマスクされ、マスクされた位置をより単純な単語に置き換えるように難易度を考慮した充填モジュールが作成されます。
最後に、3 つのベンチマーク LS データセットに関する広範な実験結果と分析により、私たちが提案した方法の有効性が実証されました。
要約(オリジナル)
Lexical Simplification (LS) aims to simplify text at the lexical level. Existing methods rely heavily on annotated data, making it challenging to apply in low-resource scenarios. In this paper, we propose a novel LS method without parallel corpora. This method employs an Adversarial Editing System with guidance from a confusion loss and an invariance loss to predict lexical edits in the original sentences. Meanwhile, we introduce an innovative LLM-enhanced loss to enable the distillation of knowledge from Large Language Models (LLMs) into a small-size LS system. From that, complex words within sentences are masked and a Difficulty-aware Filling module is crafted to replace masked positions with simpler words. At last, extensive experimental results and analyses on three benchmark LS datasets demonstrate the effectiveness of our proposed method.
arxiv情報
著者 | Keren Tan,Kangyang Luo,Yunshi Lan,Zheng Yuan,Jinlong Shu |
発行日 | 2024-02-22 17:04:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google