SimpLex: a lexical text simplification architecture

要約

タイトル:SimpLex:語彙的テキスト簡素化アーキテクチャ
要約:
– テキスト簡素化(TS)とは、与えられた文章やテキストから理解しやすい文を生成するプロセスである。
– TSの目的は、文の構造に関する構文的複雑さと単語の複雑さに関する語彙的複雑さの両方を減らし、意味やニュアンスを損なうことなく、与えられたテキストや文章を簡素化することである。
– 本論文では、簡素な英文を生成するための新しい簡素化アーキテクチャであるSimpLexを提案する。
– 提案されたアーキテクチャは、単語の埋め込み(すなわち、Word2Vec)とPerplexity、または文変換器(すなわちBERT、RoBERTa、およびGPT2)とコサイン類似性を使用して、簡素化された文を生成する。
– 提供されるソリューションは、使いやすくシンプルなソフトウェアに組み込まれている。
– 我々は、SARIとPerplexity Decreaseの2つのメトリックを使用してシステムを評価する。
– 実験的には、トランスフォーマーモデルはSARIスコアにおいて他のモデルよりも優れていることが観察された。
– しかし、Perplexityの観点からは、Word-Embeddingsベースのモデルが最大の減少を達成している。
– したがって、本論文の主な貢献は以下の通りである。
1. テキスト簡素化のための新しいWord EmbeddingおよびTransformerベースのアルゴリズムを提案する。
2. 模様型の新しいテキスト簡素化システムであるSimpLexを設計する。
3. ソリューションの詳細な分析を行い、LightLS\[19\]およびNTS-w2v\[44\]の2つの最先端モデルとの結果を比較する。
– また、コードを公開している。

要約(オリジナル)

Text simplification (TS) is the process of generating easy-to-understand sentences from a given sentence or piece of text. The aim of TS is to reduce both the lexical (which refers to vocabulary complexity and meaning) and syntactic (which refers to the sentence structure) complexity of a given text or sentence without the loss of meaning or nuance. In this paper, we present \textsc{SimpLex}, a novel simplification architecture for generating simplified English sentences. To generate a simplified sentence, the proposed architecture uses either word embeddings (i.e., Word2Vec) and perplexity, or sentence transformers (i.e., BERT, RoBERTa, and GPT2) and cosine similarity. The solution is incorporated into a user-friendly and simple-to-use software. We evaluate our system using two metrics, i.e., SARI, and Perplexity Decrease. Experimentally, we observe that the transformer models outperform the other models in terms of the SARI score. However, in terms of Perplexity, the Word-Embeddings-based models achieve the biggest decrease. Thus, the main contributions of this paper are: (1) We propose a new Word Embedding and Transformer based algorithm for text simplification; (2) We design \textsc{SimpLex} — a modular novel text simplification system — that can provide a baseline for further research; and (3) We perform an in-depth analysis of our solution and compare our results with two state-of-the-art models, i.e., LightLS [19] and NTS-w2v [44]. We also make the code publicly available online.

arxiv情報

著者 Ciprian-Octavian Truică,Andrei-Ionut Stan,Elena-Simona Apostol
発行日 2023-04-14 08:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク