TeClass: A Human-Annotated Relevance-based Headline Classification and Generation Dataset for Telugu

要約

ニュースの見出しの生成は、ニュースの読者と制作者の両方の生産性を向上させる上で重要なタスクです。
このタスクは、自動化されたニュース ヘッドライン生成モデルによって簡単に支援できます。
ただし、スクレイピングされたニュース記事に無関係な見出しが存在すると、生成モデルのパフォーマンスが最適化されません。
関連性に基づいた見出し分類は、関連性のある見出しを生成するタスクに非常に役立つ可能性があることを提案します。
関連性ベースの見出し分類では、対応するニュース記事との関連性に基づいてニュース見出しを分類します。
このタスクは英語では十分に確立されていますが、テルグ語のようなリソースの少ない言語では、注釈付きデータが不足しているため、依然として調査が進んでいません。
このギャップに対処するために、私たちは、26,178 の記事と見出しのペアにわたる 78,534 の注釈を含む、史上初の人による注釈付きテルグ語ニュース見出し分類データセットである TeClass を紹介します。
私たちはさまざまなベースライン モデルを実験し、その結果の包括的な分析を提供します。
さらに、TeClass データセットを使用してさまざまな見出し生成モデルを微調整することで、この研究の影響を実証します。
関連性の高い記事と見出しのペアに基づいて微調整されたモデルによって生成された見出しでは、ROUGE-L スコアが約 5 ポイント増加しました。
将来の研究を促進するために、注釈付きデータセットと注釈ガイドラインが一般公開されます。

要約(オリジナル)

News headline generation is a crucial task in increasing productivity for both the readers and producers of news. This task can easily be aided by automated News headline-generation models. However, the presence of irrelevant headlines in scraped news articles results in sub-optimal performance of generation models. We propose that relevance-based headline classification can greatly aid the task of generating relevant headlines. Relevance-based headline classification involves categorizing news headlines based on their relevance to the corresponding news articles. While this task is well-established in English, it remains under-explored in low-resource languages like Telugu due to a lack of annotated data. To address this gap, we present TeClass, the first-ever human-annotated Telugu news headline classification dataset, containing 78,534 annotations across 26,178 article-headline pairs. We experiment with various baseline models and provide a comprehensive analysis of their results. We further demonstrate the impact of this work by fine-tuning various headline generation models using TeClass dataset. The headlines generated by the models fine-tuned on highly relevant article-headline pairs, showed about a 5 point increment in the ROUGE-L scores. To encourage future research, the annotated dataset as well as the annotation guidelines will be made publicly available.

arxiv情報

著者 Gopichand Kanumolu,Lokesh Madasu,Nirmal Surange,Manish Shrivastava
発行日 2024-04-17 13:07:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク