Cross-Domain Robustness of Transformer-based Keyphrase Generation

要約

最新のテキスト生成モデルは、多くの自然言語処理タスクで最先端の結果を示します。
この研究では、キーフレーズ選択における抽象的なテキスト要約モデルの有効性を調査します。
キーフレーズのリストは、データベースや電子文書のリポジトリ内のテキストの重要な要素です。
私たちの実験では、キーフレーズ生成用に微調整された抽象的なテキスト要約モデルは、ターゲット テキスト コーパスに対して非常に高い結果を示しました。
ただし、ほとんどの場合、他のコーパスやドメインでのゼロショットのパフォーマンスは大幅に低くなります。
キーフレーズ生成のための抽象的なテキスト要約モデルのクロスドメイン制限を調査します。
2 つのドメインの科学テキストとニュース テキストを含む、キーフレーズ抽出のための 6 つのベンチマーク コーパスにわたるキーフレーズ選択タスク用の微調整された BART モデルの評価を示します。
小さなテキストコーパスでの BART モデルのパフォーマンスを向上させるために、異なるドメイン間の転移学習の役割を調査します。
私たちの実験では、サンプル数が限られている条件下では、ドメイン外のコーパスに対する事前の微調整が効果的であることが示されています。

要約(オリジナル)

Modern models for text generation show state-of-the-art results in many natural language processing tasks. In this work, we explore the effectiveness of abstractive text summarization models for keyphrase selection. A list of keyphrases is an important element of a text in databases and repositories of electronic documents. In our experiments, abstractive text summarization models fine-tuned for keyphrase generation show quite high results for a target text corpus. However, in most cases, the zero-shot performance on other corpora and domains is significantly lower. We investigate cross-domain limitations of abstractive text summarization models for keyphrase generation. We present an evaluation of the fine-tuned BART models for the keyphrase selection task across six benchmark corpora for keyphrase extraction including scientific texts from two domains and news texts. We explore the role of transfer learning between different domains to improve the BART model performance on small text corpora. Our experiments show that preliminary fine-tuning on out-of-domain corpora can be effective under conditions of a limited number of samples.

arxiv情報

著者 Anna Glazkova,Dmitry Morozov
発行日 2023-12-17 12:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, H.3.3 パーマリンク