Mukhyansh: A Headline Generation Dataset for Indic Languages

要約

自然言語処理 (NLP) の領域内で見出しを生成するタスクは、テキスト コンテンツの本質を抽出して、簡潔で注目を集める要約を作成することに努めるため、非常に重要な意味を持っています。
英語のような広く話されている言語の見出し生成では注目すべき進歩が見られますが、豊かで多様なインドの言語など、リソースが少ない言語での見出しの生成に関しては、依然として多くの課題が残っています。
インド言語での見出し生成を特に妨げる顕著な障害は、高品質の注釈付きデータが不足していることです。
この重大なギャップに対処するために、インドの言語の見出し生成に合わせて調整された広範な多言語データセットである Mukhyansh を自信を持って紹介します。
339 万を超える記事と見出しのペアの印象的なコレクションで構成される Mukhyansh は、テルグ語、タミル語、カンナダ語、マラヤーラム語、ヒンディー語、ベンガル語、マラーティー語、グジャラート語の 8 つのインドの主要言語にまたがっています。
いくつかの最先端のベースライン モデルの包括的な評価を示します。
さらに、既存の作品の実証分析を通じて、Mukhyansh が他のすべてのモデルよりも優れており、8 言語すべてで 31.43 という驚異的な平均 ROUGE-L スコアを達成していることを実証しました。

要約(オリジナル)

The task of headline generation within the realm of Natural Language Processing (NLP) holds immense significance, as it strives to distill the true essence of textual content into concise and attention-grabbing summaries. While noteworthy progress has been made in headline generation for widely spoken languages like English, there persist numerous challenges when it comes to generating headlines in low-resource languages, such as the rich and diverse Indian languages. A prominent obstacle that specifically hinders headline generation in Indian languages is the scarcity of high-quality annotated data. To address this crucial gap, we proudly present Mukhyansh, an extensive multilingual dataset, tailored for Indian language headline generation. Comprising an impressive collection of over 3.39 million article-headline pairs, Mukhyansh spans across eight prominent Indian languages, namely Telugu, Tamil, Kannada, Malayalam, Hindi, Bengali, Marathi, and Gujarati. We present a comprehensive evaluation of several state-of-the-art baseline models. Additionally, through an empirical analysis of existing works, we demonstrate that Mukhyansh outperforms all other models, achieving an impressive average ROUGE-L score of 31.43 across all 8 languages.

arxiv情報

著者 Lokesh Madasu,Gopichand Kanumolu,Nirmal Surange,Manish Shrivastava
発行日 2023-11-29 15:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク