要約
自動テキスト分類(ATC)は、過去10年間に顕著な進歩を経験しており、最近の大小の言語モデル(SLMおよびLLMS)によって最もよく例示されており、変圧器アーキテクチャによって活用されています。
最近の有効性の改善にもかかわらず、これらの最近のアプローチの有効性が得られるかどうかを調査する包括的なコストベネフィット分析では、SVMやロジスティック回帰などの従来のテキスト分類アプローチと比較して、文献にはまだより高いコストが補償されます。
これに関連して、この作業の主な貢献は2つあります。(i)5つのオープンLLMを含む12の従来のATCソリューションのコストベネフィットの科学的に健全な分析を提供し、(ii)eductiment {22データセット}を含む{22データセット}を含む大きなベンチマークを提供します。
コード、データ、ドキュメントのリリースにより、コミュニティは実験を再現し、より科学的に健全な方法でフィールドを前進させることができます。
私たちの比較実験結果は、LLMSが有効性の点で従来のアプローチ(平均で最大26%-7.1%)とSLMS(平均で最大4.9%-1.9%)を上回ることを示しています。
ただし、LLMSは、従来の方法やSLMよりもそれぞれ平均590倍および8.5倍遅いため、微調整により、計算コストが大幅に高くなります。
結果は、次の推奨事項を示唆しています。(1)可能な限り最良の有効性を必要とし、コストを支払うことができるアプリケーションのLLMS。
(2)リソース制限アプリケーションのロジスティック回帰とSVMなどの従来の方法、または大規模なLLMを調整するためのコストを払えないもの。
(3)最適に近い有効性効率のトレードオフのためのロベルタのようなSLM。
要約(オリジナル)
Automatic text classification (ATC) has experienced remarkable advancements in the past decade, best exemplified by recent small and large language models (SLMs and LLMs), leveraged by Transformer architectures. Despite recent effectiveness improvements, a comprehensive cost-benefit analysis investigating whether the effectiveness gains of these recent approaches compensate their much higher costs when compared to more traditional text classification approaches such as SVMs and Logistic Regression is still missing in the literature. In this context, this work’s main contributions are twofold: (i) we provide a scientifically sound comparative analysis of the cost-benefit of twelve traditional and recent ATC solutions including five open LLMs, and (ii) a large benchmark comprising {22 datasets}, including sentiment analysis and topic classification, with their (train-validation-test) partitions based on folded cross-validation procedures, along with documentation, and code. The release of code, data, and documentation enables the community to replicate experiments and advance the field in a more scientifically sound manner. Our comparative experimental results indicate that LLMs outperform traditional approaches (up to 26%-7.1% on average) and SLMs (up to 4.9%-1.9% on average) in terms of effectiveness. However, LLMs incur significantly higher computational costs due to fine-tuning, being, on average 590x and 8.5x slower than traditional methods and SLMs, respectively. Results suggests the following recommendations: (1) LLMs for applications that require the best possible effectiveness and can afford the costs; (2) traditional methods such as Logistic Regression and SVM for resource-limited applications or those that cannot afford the cost of tuning large LLMs; and (3) SLMs like Roberta for near-optimal effectiveness-efficiency trade-off.
arxiv情報
著者 | Washington Cunha,Leonardo Rocha,Marcos André Gonçalves |
発行日 | 2025-04-02 17:40:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google