要約
キーフレーズ生成用の最先端のモデルでは、良好なパフォーマンスを達成するために大量のトレーニング データが必要です。
ただし、キーフレーズのラベルが付いているドキュメントを取得するのは困難で、コストがかかる場合があります。
この問題に対処するために、自己構成型データ拡張手法を提案します。
より具体的には、共有キーフレーズに基づいてトレーニング文書の関連性を測定し、類似した文書を組み合わせて合成サンプルを生成します。
私たちの方法の利点は、外部のデータやリソースに依存せずに、ドメインの一貫性を維持する追加のトレーニング サンプルを作成できることです。
3 つの異なるドメインにわたる複数のデータセットに関する結果は、私たちの方法がキーフレーズ生成を一貫して改善していることを示しています。
コンピューター サイエンス ドメインに対して生成されたキーフレーズの定性分析により、その表現特性に対するこの改善が確認されました。
要約(オリジナル)
State-of-the-art models for keyphrase generation require large amounts of training data to achieve good performance. However, obtaining keyphrase-labeled documents can be challenging and costly. To address this issue, we present a self-compositional data augmentation method. More specifically, we measure the relatedness of training documents based on their shared keyphrases, and combine similar documents to generate synthetic samples. The advantage of our method lies in its ability to create additional training samples that keep domain coherence, without relying on external data or resources. Our results on multiple datasets spanning three different domains, demonstrate that our method consistently improves keyphrase generation. A qualitative analysis of the generated keyphrases for the Computer Science domain confirms this improvement towards their representativity property.
arxiv情報
著者 | Mael Houbre,Florian Boudin,Beatrice Daille,Akiko Aizawa |
発行日 | 2024-11-06 09:28:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google