LLMs vs Established Text Augmentation Techniques for Classification: When do the Benefits Outweight the Costs?

要約

生成大規模言語モデル (LLM) は、テキスト サンプルが LLM で言い換えられ、分類器の微調整に使用されるデータ拡張タスクにますます使用されています。
しかし、より確立された拡張手法に対する LLM の明確な費用対効果の利点を確認する研究はほとんど行われていません。
LLM ベースの拡張が有利であるかどうか (そしていつ) を検討するために、6 つのデータセット、3 つの分類器、および 2 つの微調整手法について、最近の LLM 拡張手法の効果を確立された手法と比較しました。
また、下流モデルの精度空間をより詳しく調査するために、シードの数と収集したサンプルの数を変更しました。
最後に、費用対効果分析を実行し、LLM ベースの手法は、使用されるシードの数が非常に少ない場合にのみ導入に値することを示しました。
さらに、多くの場合、確立された方法により、同等以上のモデル精度が得られます。

要約(オリジナル)

The generative large language models (LLMs) are increasingly being used for data augmentation tasks, where text samples are LLM-paraphrased and then used for classifier fine-tuning. However, a research that would confirm a clear cost-benefit advantage of LLMs over more established augmentation methods is largely missing. To study if (and when) is the LLM-based augmentation advantageous, we compared the effects of recent LLM augmentation methods with established ones on 6 datasets, 3 classifiers and 2 fine-tuning methods. We also varied the number of seeds and collected samples to better explore the downstream model accuracy space. Finally, we performed a cost-benefit analysis and show that LLM-based methods are worthy of deployment only when very small number of seeds is used. Moreover, in many cases, established methods lead to similar or better model accuracies.

arxiv情報

著者 Jan Cegin,Jakub Simko,Peter Brusilovsky
発行日 2024-08-29 13:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク