Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking

要約

確率的優位性は、確率論、計量経済学、社会的選択理論において、ランダムな結果間のエージェントの選好を堅牢にモデル化するための重要な概念です。
多くの研究が単変量のケースに特化して行われてきましたが、エージェントが異なる多変量結果の間で決定を下さなければならない多変量シナリオではほとんど行われていません。
結合に関する多変量の第一確率的優位性の特徴付けを利用することにより、滑らかなコストで最適輸送のフレームワークの下で多変量のほぼ確率的優位性を評価する統計を導入します。
さらに、この統計量のエントロピー正則化を導入し、中心極限定理 (CLT) と経験的統計量のブートストラップ手順の一貫性を確立します。
この CLT を活用して、仮説検証フレームワークと、Sinkhorn アルゴリズムを使用した効率的な実装を提案します。
複数の指標で評価される大規模言語モデルを比較およびベンチマークする方法を紹介します。
多変量確率的優位性テストを使用すると、モデルの相対的なパフォーマンスについて情報に基づいて統計的に有意な決定を下すために、メトリクス間の依存関係を把握できます。

要約(オリジナル)

Stochastic dominance is an important concept in probability theory, econometrics and social choice theory for robustly modeling agents’ preferences between random outcomes. While many works have been dedicated to the univariate case, little has been done in the multivariate scenario, wherein an agent has to decide between different multivariate outcomes. By exploiting a characterization of multivariate first stochastic dominance in terms of couplings, we introduce a statistic that assesses multivariate almost stochastic dominance under the framework of Optimal Transport with a smooth cost. Further, we introduce an entropic regularization of this statistic, and establish a central limit theorem (CLT) and consistency of the bootstrap procedure for the empirical statistic. Armed with this CLT, we propose a hypothesis testing framework as well as an efficient implementation using the Sinkhorn algorithm. We showcase our method in comparing and benchmarking Large Language Models that are evaluated on multiple metrics. Our multivariate stochastic dominance test allows us to capture the dependencies between the metrics in order to make an informed and statistically significant decision on the relative performance of the models.

arxiv情報

著者 Gabriel Rioux,Apoorva Nitsure,Mattia Rigotti,Kristjan Greenewald,Youssef Mroueh
発行日 2024-06-10 16:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク