要約
テキストの要約は、大量のテキスト情報を簡潔で一貫した要約に凝縮することを目的とした自然言語処理の基本的なタスクです。
コンテンツの急激な増加と重要な情報を効率的に抽出する必要性により、テキスト要約は近年大きな注目を集めています。
この研究では、LSTM と事前トレーニングされた T5、Pegasus、BART、および BART-Large モデルのパフォーマンスが、オープンソース データセット (Xsum、CNN/Daily Mail、Amazon Fine Food Review および News Summary) および準備された履歴書データセットで評価されました。
この履歴書データセットは、言語、学歴、経験、個人情報、スキルなど多くの情報で構成されており、このデータには 75 件の履歴書が含まれています。
この研究の主な目的は、履歴書のテキストを分類することでした。
LSTM、事前トレーニングされたモデル、微調整されたモデルなどのさまざまなテクニックが、履歴書のデータセットを使用して評価されました。
履歴書データセットを使用して微調整された BART-Large モデルは、最高のパフォーマンスを示しました。
要約(オリジナル)
Text summarization is a fundamental task in natural language processing that aims to condense large amounts of textual information into concise and coherent summaries. With the exponential growth of content and the need to extract key information efficiently, text summarization has gained significant attention in recent years. In this study, LSTM and pre-trained T5, Pegasus, BART and BART-Large model performances were evaluated on the open source dataset (Xsum, CNN/Daily Mail, Amazon Fine Food Review and News Summary) and the prepared resume dataset. This resume dataset consists of many information such as language, education, experience, personal information, skills, and this data includes 75 resumes. The primary objective of this research was to classify resume text. Various techniques such as LSTM, pre-trained models, and fine-tuned models were assessed using a dataset of resumes. The BART-Large model fine-tuned with the resume dataset gave the best performance.
arxiv情報
著者 | Öykü Berfin Mercan,Sena Nur Cavsak,Aysu Deliahmetoglu,Senem Tanberk |
発行日 | 2023-06-23 06:33:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google