From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization

要約

要約モデルの学習には、かなりの量の学習データが必要である。しかし、ハンガリー語のような資源の乏しい言語では、オープンに利用可能なモデルやデータセットがほとんどない。このギャップを解決するために、我々の論文では、抽象的・抽出的要約モデルの学習に適したオープンソースのハンガリー語コーパスHunSum-2を紹介する。このデータセットは、徹底的なクリーニング、前処理、重複排除を行ったCommon Crawlコーパスのセグメントから作成されている。抽象的要約に加えて、文の類似度を用いて抽出的要約のための文レベルのラベルを生成する。収集したデータセットを用いて、抽出的要約と抽象的要約の両方のベースラインモデルを学習する。学習したモデルの有効性を示すために、定量的評価と定性的評価の両方を行う。我々のデータセット、モデル、コードは公開されており、複製、さらなる研究、様々なドメインにわたる実世界への応用を奨励している。

要約(オリジナル)

Training summarization models requires substantial amounts of training data. However for less resourceful languages like Hungarian, openly available models and datasets are notably scarce. To address this gap our paper introduces HunSum-2 an open-source Hungarian corpus suitable for training abstractive and extractive summarization models. The dataset is assembled from segments of the Common Crawl corpus undergoing thorough cleaning, preprocessing and deduplication. In addition to abstractive summarization we generate sentence-level labels for extractive summarization using sentence similarity. We train baseline models for both extractive and abstractive summarization using the collected dataset. To demonstrate the effectiveness of the trained models, we perform both quantitative and qualitative evaluation. Our dataset, models and code are publicly available, encouraging replication, further research, and real-world applications across various domains.

arxiv情報

著者 Botond Barta,Dorina Lakatos,Attila Nagy,Milán Konor Nyist,Judit Ács
発行日 2024-04-04 16:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク