要約
基礎モデルの社会技術的リスクを定量化された統計的有意性で評価するための分布フレームワークを提案します。
私たちのアプローチは、実際の確率変数の一次および二次の確率的優位性に基づく新しい統計的相対検定に依存しています。
このテストの 2 次統計が、代替案を選択する際にリスクと効用のバランスを取るために計量経済学や数理ファイナンスで一般的に使用される平均リスク モデルにリンクされていることを示します。
このフレームワークを使用して、指定されたメトリックによって定量化されたガードレールを考慮した基礎モデル選択のためのリスクを意識したアプローチを正式に開発します。
数理ファイナンスのポートフォリオ最適化と選択理論にヒントを得て、メトリクスのコレクションを集約する手段として各モデルのメトリクス ポートフォリオを定義し、これらのポートフォリオの確率的優位性に基づいてモデル選択を実行します。
私たちのテストの統計的有意性は、ブートストラップ分散推定を介して実際に例示される中心極限定理による漸近分析によって理論的に裏付けられています。
私たちはフレームワークを使用して、指示からの逸脱や有害なコンテンツの出力に関連するリスクに関して、さまざまな大規模な言語モデルを比較します。
要約(オリジナル)
We propose a distributional framework for assessing socio-technical risks of foundation models with quantified statistical significance. Our approach hinges on a new statistical relative testing based on first and second order stochastic dominance of real random variables. We show that the second order statistics in this test are linked to mean-risk models commonly used in econometrics and mathematical finance to balance risk and utility when choosing between alternatives. Using this framework, we formally develop a risk-aware approach for foundation model selection given guardrails quantified by specified metrics. Inspired by portfolio optimization and selection theory in mathematical finance, we define a metrics portfolio for each model as a means to aggregate a collection of metrics, and perform model selection based on the stochastic dominance of these portfolios. The statistical significance of our tests is backed theoretically by an asymptotic analysis via central limit theorems instantiated in practice via a bootstrap variance estimate. We use our framework to compare various large language models regarding risks related to drifting from instructions and outputting toxic content.
arxiv情報
著者 | Apoorva Nitsure,Youssef Mroueh,Mattia Rigotti,Kristjan Greenewald,Brian Belgodere,Mikhail Yurochkin,Jiri Navratil,Igor Melnyk,Jerret Ross |
発行日 | 2024-01-09 14:38:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google