idT5: Indonesian Version of Multilingual T5 Transformer

要約

インドネシア語は約 2 億人が話しており、世界で 10 番目に多く話されている言語ですが、NLP (自然言語処理) 研究では過小評価されています。
言語リソースの不足により、インドネシア語に関するこれまでの研究が妨げられてきました。
Transformer は、畳み込みニューラル ネットワークやリカレント ニューラル ネットワークなどの代替手段を超え、NLP で急速に主流になりつつある新しいアーキテクチャです。
T5 (Text-to-Text Transfer Transformer) は、すべてのテキストベースの言語の問題を英語のテキストからテキストへの形式に変換する Transformer モデルです。
多言語版は mT5 (多言語 T5) で、言語をまたがる多くの NLP タスクで有望な結果を示しています。
ただし、この多言語モデルのサイズは、場合によっては 1 つの言語のみを必要とする実際の運用アプリケーションに適用する場合の欠点となります。
この研究では、mT5 モデルは 1 つの言語であるインドネシア語のみに適応され、その結果、インドネシア語のみに特化した、より小さいサイズの事前トレーニング済み T5 モデルが得られました。
パフォーマンスを比較するために、このモデルと mT5 モデルを、正確なメカニズムとデータセットを使用して感情分析 (SA)、質問生成 (QG)、および質問応答 (QA) タスクに合わせて微調整しました。
私たちのモデルに基づいて微調整されたモデルは、SA で 77.18% の精度を達成し、mT5 ベースのモデルより 8% 高く、QG および QA では mT5 ベースのモデルとほぼ同じスコアを取得しました。
その結果、モデル サイズを最大 58% 削減しながら、同等の収量を維持する、より小型の事前トレーニング済みモデルを生成できることが確認されました。
さらに、結果として得られるモデルに必要なメモリは少なくなり、読み込みが速くなり、推論時間が短縮されます。

要約(オリジナル)

Indonesian language is spoken by almost 200 million people and is the 10th most spoken language in the world, but it is under-represented in NLP (Natural Language Processing) research. A sparsity of language resources has hampered previous work on Indonesian. The Transformer is a new architecture rapidly becoming dominant for NLP, surpassing alternatives like convolutional and recurrent neural networks. T5 (Text-to-Text Transfer Transformer) is a Transformer model that converts all text-based language problems to text-to-text format for English. The multilingual variant is mT5 (multilingual T5) which has shown promising results on many NLP tasks across languages. However, the size of this multilingual model is a drawback for its application in real production applications, which sometimes require only one language. In this study, the mT5 model was adapted for only one language, Indonesian, resulting in a pre-trained T5 model that was specific only for Indonesian with a smaller size. For performance comparison, we fine-tuned this model and the mT5 model to the Sentiment Analysis (SA), Question Generation (QG), and Question Answering (QA) tasks with the exact mechanism and dataset. Fine-tuned model based on our model achieved 77.18% accuracy on SA, 8% higher than the mT5-based model, and obtained nearly the same score as the mT5-based model on QG and QA. The results confirm that it is possible to produce a smaller pre-trained model that maintains comparable yields while reducing the model size by up to 58%. In addition, the resulting model requires less memory, loads faster, and inference times faster.

arxiv情報

著者 Mukhlish Fuadi,Adhi Dharma Wibawa,Surya Sumpeno
発行日 2023-11-09 08:47:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク