Vārta: A Large-Scale Headline-Generation Dataset for Indic Languages

要約

タイトル:Vārta:インド諸言語の大規模なヘッドライン生成データセット

要約:

– Vārtaは、インド諸言語におけるヘッドライン生成のための大規模なマルチリンガルデータセットである。
– このデータセットには、14の異なるインド諸言語(および英語)での41.8百万件のニュース記事が含まれており、高品質のソースから得られている。
– 現在利用可能なインド諸言語のキュレーションされた記事の最大のコレクションであると思われる。
– 我々は、Indic NLPおよび多言語研究に関連する重要な質問に答えるために、一連の実験で収集されたデータを使用した。
– 我々は、最先端の抽象的モデルでさえも、このデータセットが難しいことを示し、彼らは抽出的なベースラインよりも僅かに性能が良いということを示した。
– サイズの大きさにより、データセットは、NLUおよびNLGのベンチマークの両方で競合するベースラインを上回る強力な言語モデルを事前学習するために使用できることも示した。

要約(オリジナル)

We present V\=arta, a large-scale multilingual dataset for headline generation in Indic languages. This dataset includes 41.8 million news articles in 14 different Indic languages (and English), which come from a variety of high-quality sources. To the best of our knowledge, this is the largest collection of curated articles for Indic languages currently available. We use the data collected in a series of experiments to answer important questions related to Indic NLP and multilinguality research in general. We show that the dataset is challenging even for state-of-the-art abstractive models and that they perform only slightly better than extractive baselines. Owing to its size, we also show that the dataset can be used to pretrain strong language models that outperform competitive baselines in both NLU and NLG benchmarks.

arxiv情報

著者 Rahul Aralikatte,Ziling Cheng,Sumanth Doddapaneni,Jackie Chi Kit Cheung
発行日 2023-05-10 03:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク