Effective Proxy for Human Labeling: Ensemble Disagreement Scores in Large Language Models for Industrial NLP

要約

大規模言語モデル (LLM) は、多数の NLP タスクを一般化する優れた機能を実証しています。
産業用アプリケーションの場合、ラベルのない実稼働データに対する LLM のパフォーマンスを時々評価して、現実世界の設定を検証することが不可欠です。
モデルのエラーを評価するための人によるラベル付けには、かなりの費用と時間の遅れが必要です。
ここでは、キーフレーズ抽出 (KPE) タスクの評価に従って、アンサンブル不一致スコアがゼロショット、少数ショット、および微調整された設定で言語モデルに対する人間によるラベル付けの代理として機能することを示します。
人間がラベル付けしたグラウンド トゥルースから測定された真の誤差と比較することにより、結果の忠実度を測定します。
ここでは、別の LLM をマシン ラベルまたはシルバー ラベルのソースとして使用するという代替案と対比します。
さまざまな言語およびドメインにわたる結果は、不一致スコアにより、平均平均誤差 (MAE) が 0.4% と低く、シルバー ラベルを使用した場合よりも平均 13.8% 優れたモデル パフォーマンスの推定を提供することを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant capability to generalize across a large number of NLP tasks. For industry applications, it is imperative to assess the performance of the LLM on unlabeled production data from time to time to validate for a real-world setting. Human labeling to assess model error requires considerable expense and time delay. Here we demonstrate that ensemble disagreement scores work well as a proxy for human labeling for language models in zero-shot, few-shot, and fine-tuned settings, per our evaluation on keyphrase extraction (KPE) task. We measure fidelity of the results by comparing to true error measured from human labeled ground truth. We contrast with the alternative of using another LLM as a source of machine labels, or silver labels. Results across various languages and domains show disagreement scores provide a better estimation of model performance with mean average error (MAE) as low as 0.4% and on average 13.8% better than using silver labels.

arxiv情報

著者 Wei Du,Laksh Advani,Yashmeet Gambhir,Daniel J Perry,Prashant Shiralkar,Zhengzheng Xing,Aaron Colak
発行日 2023-09-11 17:07:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク