mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences

要約

長い入力の処理に適した、多言語で効率的なテキストからテキストへの変換器の開発に関する取り組みを紹介します。
mLongT5 と呼ばれるこのモデルは、mT5 の事前トレーニングと UL2 の事前トレーニング タスクに使用される多言語データセットを利用しながら、LongT5 のアーキテクチャに基づいて構築されています。
このモデルをさまざまな多言語要約タスクや質問応答タスクで評価しました。その結果、mBART や M-BERT などの既存の多言語モデルと比較した場合、mLongT5 のパフォーマンスが優れていることがわかりました。

要約(オリジナル)

We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.

arxiv情報

著者 David Uthus,Santiago Ontañón,Joshua Ainslie,Mandy Guo
発行日 2023-05-18 17:22:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク