Simple Hack for Transformers against Heavy Long-Text Classification on a Time- and Memory-Limited GPU Service

要約

多くの NLP 研究者は、Transformer モデルを微調整するために Google Colab などの無料の計算サービスに依存しています。このため、長文分類におけるハイパーパラメータ最適化 (HPO) には二次的な複雑さがあり、より大きなリソースが必要となるため、制限が生じています。
インドネシア語では、Transformers を使用した長文分類に関する研究はわずかでした。
ほとんどの場合、少量のデータのみが使用され、HPO は報告されません。
この研究では、18,000 件のニュース記事を使用して、トークナイザーの出力長に基づいてどの事前トレーニング済みモデルの使用が推奨されるかを調査します。
次に、シーケンスを短縮して豊かにするためのいくつかのハック、つまりストップワード、句読点、低頻度単語、繰り返し単語の削除を比較します。
公平な比較を行うために、限られたリソースで段階的に実行でき、長時間実行される最適化ライブラリを必要としない、効率的で動的な HPO プロシージャを提案して実行します。
見つかった最良のハックを使用して、512、256、および 128 トークンの長さを比較します。
句読点と低頻度単語を維持しながらストップワードを削除することが最良のハックであることがわかりました。
一部のセットアップでは、より少ない計算リソースを必要としながら同じ情報を表現できる、より小さな 128 または 256 個の最初のトークンを使用して、512 個の最初のトークンを取得するよりも優れたパフォーマンスを実現しています。
この発見は、開発者が限られたリソースを使用してモデルの最適なパフォーマンスを効率的に追求するのに役立つ可能性があります。

要約(オリジナル)

Many NLP researchers rely on free computational services, such as Google Colab, to fine-tune their Transformer models, causing a limitation for hyperparameter optimization (HPO) in long-text classification due to the method having quadratic complexity and needing a bigger resource. In Indonesian, only a few works were found on long-text classification using Transformers. Most only use a small amount of data and do not report any HPO. In this study, using 18k news articles, we investigate which pretrained models are recommended to use based on the output length of the tokenizer. We then compare some hacks to shorten and enrich the sequences, which are the removals of stopwords, punctuation, low-frequency words, and recurring words. To get a fair comparison, we propose and run an efficient and dynamic HPO procedure that can be done gradually on a limited resource and does not require a long-running optimization library. Using the best hack found, we then compare 512, 256, and 128 tokens length. We find that removing stopwords while keeping punctuation and low-frequency words is the best hack. Some of our setups manage to outperform taking 512 first tokens using a smaller 128 or 256 first tokens which manage to represent the same information while requiring less computational resources. The findings could help developers to efficiently pursue optimal performance of the models using limited resources.

arxiv情報

著者 Mirza Alim Mutasodirin,Radityo Eko Prasojo,Achmad F. Abka,Hanif Rasyidi
発行日 2024-03-19 09:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク