Exploring LLMs as a Source of Targeted Synthetic Textual Data to Minimize High Confidence Misclassifications

要約

予測パフォーマンス用に最適化された自然言語処理 (NLP) モデルは、多くの場合、信頼性の高いエラーを起こし、敵対的なデータや配布外のデータに対する脆弱性に悩まされます。
既存の研究は主に、人間または自動化されたアプローチを使用してそのようなエラーを軽減することに焦点を当ててきました。
この研究では、分類タスク中に高い信頼度で誤った予測を行う NLP モデルの問題に対する潜在的な解決策として、データ拡張のための大規模言語モデル (LLM) の使用を検討します。
LLM によって生成された合成データの有効性を、同じ手順で取得した人間のデータの有効性と比較します。
軽減のために、人間または LLM は、信頼性の高い誤分類の自然言語による特徴付けを提供して合成データを生成し、それを使用してトレーニング セットを拡張します。
私たちは 3 つの分類タスクに対するアプローチの広範な評価を実施し、同じレベルの精度を維持しながら、モデル内に存在する信頼性の高い誤分類の数を減らす効果を実証しました。
さらに、LLM はよりスケーラブルでありながら人間と同様のパフォーマンスを達成するため、人間と LLM の間のコストの差は 1 桁を超えていることがわかりました。

要約(オリジナル)

Natural Language Processing (NLP) models optimized for predictive performance often make high confidence errors and suffer from vulnerability to adversarial and out-of-distribution data. Existing work has mainly focused on mitigation of such errors using either humans or an automated approach. In this study, we explore the usage of large language models (LLMs) for data augmentation as a potential solution to the issue of NLP models making wrong predictions with high confidence during classification tasks. We compare the effectiveness of synthetic data generated by LLMs with that of human data obtained via the same procedure. For mitigation, humans or LLMs provide natural language characterizations of high confidence misclassifications to generate synthetic data, which are then used to extend the training set. We conduct an extensive evaluation of our approach on three classification tasks and demonstrate its effectiveness in reducing the number of high confidence misclassifications present in the model, all while maintaining the same level of accuracy. Moreover, we find that the cost gap between humans and LLMs surpasses an order of magnitude, as LLMs attain human-like performance while being more scalable.

arxiv情報

著者 Philip Lippmann,Matthijs Spaan,Jie Yang
発行日 2024-03-26 16:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク