要約
大規模な言語モデル(LLMS)の最近の開発により、さまざまなタスクに対する広範な使用が行われています。
社会におけるLLMの有病率は、彼らのパフォーマンスの信頼性に対する保証を懇願します。
特に、リスクに敏感なアプリケーションは、予想外に悪い結果、つまり尾のイベント、たとえば有毒な答え、屈辱的な言語、攻撃的な出力に細心の注意を払う必要があります。
人間の注釈を取得することの費用がかかる性質により、これらのテールイベントを定量化するプロセスを自動化するために、汎用スコアリングモデルが作成されています。
この現象は、それぞれのスコアリングメカニズム間に潜在的なヒューマシンの不整合を導入します。
この作業では、Blackboxモデルの軽量キャリブレーションフレームワークを提示し、人間と機械の整合性を証明できる保証を保証します。
私たちのフレームワークは、LLMが生じた損失の加重平均を高い信頼性で特徴付ける歪みリスク測定を制御するための厳密なアプローチを提供します。
私たちの方法の理論的基盤は、コンフォーマルリスク制御と従来の統計ファミリー、つまりL-statisticsとの関係に依存しています。
フレームワークの有用性を実証するために、ヒューマンマシンの不整合の問題に対処する包括的な実験を実施します。
要約(オリジナル)
Recent developments in large language models (LLMs) have led to their widespread usage for various tasks. The prevalence of LLMs in society implores the assurance on the reliability of their performance. In particular, risk-sensitive applications demand meticulous attention to unexpectedly poor outcomes, i.e., tail events, for instance, toxic answers, humiliating language, and offensive outputs. Due to the costly nature of acquiring human annotations, general-purpose scoring models have been created to automate the process of quantifying these tail events. This phenomenon introduces potential human-machine misalignment between the respective scoring mechanisms. In this work, we present a lightweight calibration framework for blackbox models that ensures the alignment of humans and machines with provable guarantees. Our framework provides a rigorous approach to controlling any distortion risk measure that is characterized by a weighted average of quantiles of the loss incurred by the LLM with high confidence. The theoretical foundation of our method relies on the connection between conformal risk control and a traditional family of statistics, i.e., L-statistics. To demonstrate the utility of our framework, we conduct comprehensive experiments that address the issue of human-machine misalignment.
arxiv情報
著者 | Catherine Yu-Chi Chen,Jingyan Shen,Zhun Deng,Lihua Lei |
発行日 | 2025-02-27 17:10:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google