Low Resource Summarization using Pre-trained Language Models

要約

深層学習ベースの人工ニューラル ネットワーク モデルの出現により、自然言語処理 (NLP) は効率と精度の点でテキスト データ処理の大幅な向上を実現しました。
ただし、この研究は主に英語などの高リソース言語に限定されており、低リソース言語ではトレーニング データセットやベースライン評価結果さえも備えたモデルの点で利用可能なリソースが依然として不足しています。
低リソース言語のリソースの利用可能性が限られていることを考慮して、新しいベースライン データセットの構築によって補完された、低リソースの要約に自己注意型トランスフォーマー ベースのアーキテクチャ モデル (mBERT、mT5) を適応させる方法論を提案します (76.5k の記事)
、概要ペア)を低リソース言語ウルドゥー語で記述します。
ニュース (公的に利用可能な情報源) をアプリケーション ドメインとして選択すると、提案された方法論が限られたリソースで他の言語で再生するのに役立つ可能性があります。
\textit{mT5} と比較してサイズが最大 44.78\% 削減された、適応された要約モデル \textit{urT5} は、評価スコア (最大 46.35 ROUGE-1、77 BERTScore) で低リソース言語のコンテキスト情報を効果的にキャプチャできます。
高リソース言語である英語の最先端モデル \textit{(PEGASUS: 47.21, BART: 45.14 on XSUM Dataset)} と同等です。
提案された方法は、限られたリソース設定での競合評価結果による抽出的および抽象的な要約に対するベースライン アプローチを提供しました。

要約(オリジナル)

With the advent of Deep Learning based Artificial Neural Networks models, Natural Language Processing (NLP) has witnessed significant improvements in textual data processing in terms of its efficiency and accuracy. However, the research is mostly restricted to high-resource languages such as English and low-resource languages still suffer from a lack of available resources in terms of training datasets as well as models with even baseline evaluation results. Considering the limited availability of resources for low-resource languages, we propose a methodology for adapting self-attentive transformer-based architecture models (mBERT, mT5) for low-resource summarization, supplemented by the construction of a new baseline dataset (76.5k article, summary pairs) in a low-resource language Urdu. Choosing news (a publicly available source) as the application domain has the potential to make the proposed methodology useful for reproducing in other languages with limited resources. Our adapted summarization model \textit{urT5} with up to 44.78\% reduction in size as compared to \textit{mT5} can capture contextual information of low resource language effectively with evaluation score (up to 46.35 ROUGE-1, 77 BERTScore) at par with state-of-the-art models in high resource language English \textit{(PEGASUS: 47.21, BART: 45.14 on XSUM Dataset)}. The proposed method provided a baseline approach towards extractive as well as abstractive summarization with competitive evaluation results in a limited resource setup.

arxiv情報

著者 Mubashir Munaf,Hammad Afzal,Naima Iltaf,Khawir Mahmood
発行日 2023-10-04 13:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク