I-WAS: a Data Augmentation Method with GPT-2 for Simile Detection

要約

直喩の検出は、多くの自然言語処理 (NLP) ベースのアプリケーション、特に文学分野にとって貴重なタスクです。
しかし、直喩検出に関する既存の研究は、サイズが限られており、直喩形式の全範囲を適切に表現していないコーパスに依存していることがよくあります。
この問題に対処するために、GPT-2 言語モデルを使用した \textbf{W}ord 置換と文補完に基づく直喩データ拡張手法を提案します。
I-WAS と呼ばれる反復プロセスは、拡張された文章の品質を向上させるように設計されています。
実世界のアプリケーションにおけるこの方法のパフォーマンスをより適切に評価するために、実験用に、より多様な直喩形式のセットを含むコーパスを編集しました。
私たちの実験結果は、直喩検出に対する私たちの提案したデータ拡張方法の有効性を示しています。

要約(オリジナル)

Simile detection is a valuable task for many natural language processing (NLP)-based applications, particularly in the field of literature. However, existing research on simile detection often relies on corpora that are limited in size and do not adequately represent the full range of simile forms. To address this issue, we propose a simile data augmentation method based on \textbf{W}ord replacement And Sentence completion using the GPT-2 language model. Our iterative process called I-WAS, is designed to improve the quality of the augmented sentences. To better evaluate the performance of our method in real-world applications, we have compiled a corpus containing a more diverse set of simile forms for experimentation. Our experimental results demonstrate the effectiveness of our proposed data augmentation method for simile detection.

arxiv情報

著者 Yongzhu Chang,Rongsheng Zhang,Jiashu Pu
発行日 2023-08-08 07:47:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク