From News to Summaries: Building a Hungarian Corpus for Extractive and Abstractive Summarization

要約

トレーニング要約モデルには、大量のトレーニング データが必要です。
ただし、ハンガリー語のようなリソースに乏しい言語では、オープンに利用できるモデルやデータセットが著しく不足しています。
このギャップに対処するために、私たちの論文では、抽象的および抽出的要約モデルのトレーニングに適したオープンソースのハンガリー語コーパスである HunSum-2 を紹介します。
データセットは、徹底的なクリーニング、前処理、重複排除を経た Common Crawl コーパスのセグメントから組み立てられています。
抽象的な要約に加えて、文の類似性を使用して抽出的な要約のための文レベルのラベルを生成します。
収集されたデータセットを使用して、抽出的要約と抽象的要約の両方のベースライン モデルをトレーニングします。
トレーニングされたモデルの有効性を実証するために、定量的評価と定性的評価の両方を実行します。
私たちのデータセット、モデル、コードは公開されており、複製、さらなる研究、さまざまなドメインにわたる現実世界への応用が促進されています。

要約(オリジナル)

Training summarization models requires substantial amounts of training data. However for less resourceful languages like Hungarian, openly available models and datasets are notably scarce. To address this gap our paper introduces HunSum-2 an open-source Hungarian corpus suitable for training abstractive and extractive summarization models. The dataset is assembled from segments of the Common Crawl corpus undergoing thorough cleaning, preprocessing and deduplication. In addition to abstractive summarization we generate sentence-level labels for extractive summarization using sentence similarity. We train baseline models for both extractive and abstractive summarization using the collected dataset. To demonstrate the effectiveness of the trained models, we perform both quantitative and qualitative evaluation. Our dataset, models and code are publicly available, encouraging replication, further research, and real-world applications across various domains.

arxiv情報

著者 Botond Barta,Dorina Lakatos,Attila Nagy,Milán Konor Nyist,Judit Ács
発行日 2024-04-12 08:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク