Summarizing Indian Languages using Multilingual Transformers based Models

要約

mBART、mT5、IndicBART などの多言語モデルの出現により、リソースの少ないインドの言語での要約は、現在多くの注目を集めています。
しかし、まだデータセットの数は少ないです。
この作業では、私たち (チーム HakunaMatata) は、これらの多言語モデルが、要約を実行する際にソース テキストとターゲット テキストとしてインドの言語を含むデータセットでどのように機能するかを調査します。
IndicBART および mT5 モデルを使用して実験を行い、ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4 のスコアをパフォーマンス メトリックとして報告しました。

要約(オリジナル)

With the advent of multilingual models like mBART, mT5, IndicBART etc., summarization in low resource Indian languages is getting a lot of attention now a days. But still the number of datasets is low in number. In this work, we (Team HakunaMatata) study how these multilingual models perform on the datasets which have Indian languages as source and target text while performing summarization. We experimented with IndicBART and mT5 models to perform the experiments and report the ROUGE-1, ROUGE-2, ROUGE-3 and ROUGE-4 scores as a performance metric.

arxiv情報

著者 Dhaval Taunk,Vasudeva Varma
発行日 2023-03-29 13:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク