Multilingual Controllable Transformer-Based Lexical Simplification

要約

テキストは知識と情報の最も遍在的な情報源であり、できるだけ多くの人が簡単にアクセスできるようにする必要があります。
ただし、テキストには読解やアクセシビリティを妨げる複雑な単語が含まれることがよくあります。
したがって、意味を損なうことなく、複雑な単語のより単純な代替案を提案することは、より幅広い聴衆に情報を伝えるのに役立ちます。
この論文では、T5 モデルで微調整された多言語制御可能な Transformer ベースの語彙簡略化 (LS) システムである mTLS を提案します。
この研究の新規性は、言語固有の接頭辞、制御トークン、および事前トレーニングされたマスク言語モデルから抽出された候補を使用して、複雑な単語のより単純な代替語を学習することにあります。
LexMTurk、BenchLS、NNSEval という 3 つのよく知られた LS データセットの評価結果は、私たちのモデルが LSBert や ConLS などの以前の最先端のモデルよりも優れていることを示しています。
さらに、最近の TSAR-2022 多言語 LS 共有タスク データセットの一部に関する私たちのアプローチをさらに評価したところ、英語 LS の参加システムと比較した場合、私たちのモデルが競争力を発揮し、いくつかの指標で GPT-3 モデルを上回るパフォーマンスを示していることが示されています。
さらに、私たちのモデルはスペイン語とポルトガル語でもパフォーマンスが向上しました。

要約(オリジナル)

Text is by far the most ubiquitous source of knowledge and information and should be made easily accessible to as many people as possible; however, texts often contain complex words that hinder reading comprehension and accessibility. Therefore, suggesting simpler alternatives for complex words without compromising meaning would help convey the information to a broader audience. This paper proposes mTLS, a multilingual controllable Transformer-based Lexical Simplification (LS) system fined-tuned with the T5 model. The novelty of this work lies in the use of language-specific prefixes, control tokens, and candidates extracted from pre-trained masked language models to learn simpler alternatives for complex words. The evaluation results on three well-known LS datasets — LexMTurk, BenchLS, and NNSEval — show that our model outperforms the previous state-of-the-art models like LSBert and ConLS. Moreover, further evaluation of our approach on the part of the recent TSAR-2022 multilingual LS shared-task dataset shows that our model performs competitively when compared with the participating systems for English LS and even outperforms the GPT-3 model on several metrics. Moreover, our model obtains performance gains also for Spanish and Portuguese.

arxiv情報

著者 Kim Cheng Sheang,Horacio Saggion
発行日 2023-07-05 08:48:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク