Summarization-based Data Augmentation for Document Classification

要約

自然言語理解タスクにおいて、事前に学習された言語モデルが普及しているにもかかわらず、文書のような長いテキストを理解することは、データが疎であるという問題のために依然として困難である。我々は、人間が短い文章を読むことから長い文章を理解する能力を発達させることに着想を得て、文書分類のための、簡単かつ効果的な要約に基づくデータ補強法SUMMaugを提案する。我々はまず、元の学習例の入力を要約し、オプションで元のラベルを要約された入力に適合するようにマージすることで、目的の文書分類タスクのための学習しやすい例を得る。次に、生成された擬似例を用いてカリキュラム学習を行う。つのデータセットでの実験結果から、既存のベースライン手法と比較して、本手法が頑健性と精度の点で優れていることが確認された。我々のコードとデータをhttps://github.com/etsurin/summaug。

要約(オリジナル)

Despite the prevalence of pretrained language models in natural language understanding tasks, understanding lengthy text such as document is still challenging due to the data sparseness problem. Inspired by that humans develop their ability of understanding lengthy text from reading shorter text, we propose a simple yet effective summarization-based data augmentation, SUMMaug, for document classification. We first obtain easy-to-learn examples for the target document classification task by summarizing the input of the original training examples, while optionally merging the original labels to conform to the summarized input. We then use the generated pseudo examples to perform curriculum learning. Experimental results on two datasets confirmed the advantage of our method compared to existing baseline methods in terms of robustness and accuracy. We release our code and data at https://github.com/etsurin/summaug.

arxiv情報

著者 Yueguan Wang,Naoki Yoshinaga
発行日 2023-12-01 11:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク