Data Augmentation for Low-Resource Keyphrase Generation

要約

キーフレーズの生成は、特定の記事の内容をいくつかの顕著なフレーズ (またはキーフレーズ) に要約するタスクです。
このタスクに関する既存の研究は、ほとんどが大規模なアノテーション付きデータセットに依存していますが、これらのデータセットを取得するのは簡単ではありません。
低リソース設定でのキーフレーズ生成の問題に取り組んでいる研究はほとんどありませんが、それでも事前トレーニング用の多くの追加のラベルなしデータと、疑似アノテーションの自動手法に依存しています。
このペーパーでは、純粋にリソースに制約のあるドメインでのキーフレーズ生成に特に対処するためのデータ拡張戦略を紹介します。
私たちは、記事の全文を使用して、存在するキーフレーズと存在しないキーフレーズの生成を改善する手法を設計します。
私たちは 3 つのデータセットでアプローチを包括的にテストし、データ拡張戦略により最先端のパフォーマンスが一貫して向上することを示しました。
ソースコードは https://github.com/kgarg8/kpgen-lowres-data-aug で公開しています。

要約(オリジナル)

Keyphrase generation is the task of summarizing the contents of any given article into a few salient phrases (or keyphrases). Existing works for the task mostly rely on large-scale annotated datasets, which are not easy to acquire. Very few works address the problem of keyphrase generation in low-resource settings, but they still rely on a lot of additional unlabeled data for pretraining and on automatic methods for pseudo-annotations. In this paper, we present data augmentation strategies specifically to address keyphrase generation in purely resource-constrained domains. We design techniques that use the full text of the articles to improve both present and absent keyphrase generation. We test our approach comprehensively on three datasets and show that the data augmentation strategies consistently improve the state-of-the-art performance. We release our source code at https://github.com/kgarg8/kpgen-lowres-data-aug.

arxiv情報

著者 Krishna Garg,Jishnu Ray Chowdhury,Cornelia Caragea
発行日 2023-05-29 09:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク