要約
Transformer ベースのモデルは、浅いモデルと比較して、さまざまな NLP タスクにわたって一貫して大幅なパフォーマンス向上をもたらしています。
ただし、深いモデルは、特にドキュメント レベルのイベント検出など、シーケンス長が長いタスクの場合、浅いモデルよりも計算コストが桁違いに高くなります。
この研究では、抽象的なテキスト要約を拡張方法として使用することで、ドキュメントレベルのイベント検出における浅いモデルと深いモデルの間のパフォーマンスのギャップを埋めることを試みます。
低リソースのクラスからサンプルの抽象的な概要を生成することで、DocEE データセットを強化します。
分類には、TF-IDF 表現と RoBERTa ベースの線形 SVM を使用します。
私たちはゼロショットの抽象的な要約に BART を使用しており、監視付き微調整と比較して拡張セットアップのリソース消費量が少なくなります。
テキスト生成のための 4 つのデコード方法、つまりビーム検索、top-k サンプリング、top-p サンプリング、およびコントラスト検索を実験します。
さらに、分類のための追加入力として文書タイトルを使用することの影響を調査します。
私たちの結果は、文書タイトルを使用すると、線形 SVM と RoBERTa のマクロ F1 スコアがそれぞれ 2.04% と 3.19% 絶対的に向上することを示しています。
要約による拡張により、線形 SVM のパフォーマンスがさらに約 0.5% 向上しますが、デコード方法によって若干異なります。
全体として、私たちの拡張セットアップでは、RoBERTa と比較して線形 SVM の改善が不十分です。
要約(オリジナル)
Transformer-based models have consistently produced substantial performance gains across a variety of NLP tasks, compared to shallow models. However, deep models are orders of magnitude more computationally expensive than shallow models, especially on tasks with large sequence lengths, such as document-level event detection. In this work, we attempt to bridge the performance gap between shallow and deep models on document-level event detection by using abstractive text summarization as an augmentation method. We augment the DocEE dataset by generating abstractive summaries of examples from low-resource classes. For classification, we use linear SVM with TF-IDF representations and RoBERTa-base. We use BART for zero-shot abstractive summarization, making our augmentation setup less resource-intensive compared to supervised fine-tuning. We experiment with four decoding methods for text generation, namely beam search, top-k sampling, top-p sampling, and contrastive search. Furthermore, we investigate the impact of using document titles as additional input for classification. Our results show that using the document title offers 2.04% and 3.19% absolute improvement in macro F1-score for linear SVM and RoBERTa, respectively. Augmentation via summarization further improves the performance of linear SVM by about 0.5%, varying slightly across decoding methods. Overall, our augmentation setup yields insufficient improvements for linear SVM compared to RoBERTa.
arxiv情報
著者 | Janko Vidaković,Filip Karlo Došilović,Domagoj Pluščec |
発行日 | 2023-05-29 11:28:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google