Testing Calibration in Nearly-Linear Time

要約

機械学習と意思決定に関する最近の文献では、バイナリ予測モデルの出力の望ましい統計的特性としてキャリブレーションが広く研究されていることが明らかになりました。
ただし、測定モデルのキャリブレーションのアルゴリズムの側面は、比較的十分に調査されていないままです。
校正までの距離を測定するための厳密な枠組みを提案した [BGHN23] に動機付けられ、我々は特性試験のレンズを通して校正のアルゴリズム研究を開始しました。
与えられた $n$ が $(predictions, binary results)$ 上の分布 $\mathcal{D}$ から抽出されるサンプルからの校正テストの問題を定義します。私たちの目標は、$\mathcal{D} が次の場合を区別することです。
$ は完全に校正されていますが、$\mathcal{D}$ が $\varepsilon$ である場合は校正から程遠いです。
経験に基づくスムーズなキャリブレーション線形プログラムは、高度に構造化されたグラフ上の最小コスト フローのインスタンスとして再定式化できるという単純な観察を行い、$O(n\ の時間内に実行される正確な動的計画ベースのソルバーを設計します。
log^2(n))$ を計算し、同時にキャリブレーション テストの問題情報を理論的に最適に解決します。
これは、$\Omega(n^\omega)$ 時間を必要とする最先端のブラックボックス線形プログラム ソルバーを改善します。ここで、$\omega > 2$ は行列乗算の指数です。
また、ブラック ボックス線形プログラム ソルバーを改良して、テスト問題の寛容なバリエーションのアルゴリズムを開発し、この作業で考慮したものに代わる校正手段としてサンプルの複雑さの下限を与えます。
最後に、私たちが定義したテスト問題がキャリブレーションの標準的な概念を忠実に捉えていること、および私たちのアルゴリズムが大きなサンプルサイズに対応するために効率的に拡張できることを示す実験を紹介します。

要約(オリジナル)

In the recent literature on machine learning and decision making, calibration has emerged as a desirable and widely-studied statistical property of the outputs of binary prediction models. However, the algorithmic aspects of measuring model calibration have remained relatively less well-explored. Motivated by [BGHN23], which proposed a rigorous framework for measuring distances to calibration, we initiate the algorithmic study of calibration through the lens of property testing. We define the problem of calibration testing from samples where given $n$ draws from a distribution $\mathcal{D}$ on $(predictions, binary outcomes)$, our goal is to distinguish between the case where $\mathcal{D}$ is perfectly calibrated, and the case where $\mathcal{D}$ is $\varepsilon$-far from calibration. We make the simple observation that the empirical smooth calibration linear program can be reformulated as an instance of minimum-cost flow on a highly-structured graph, and design an exact dynamic programming-based solver for it which runs in time $O(n\log^2(n))$, and solves the calibration testing problem information-theoretically optimally in the same time. This improves upon state-of-the-art black-box linear program solvers requiring $\Omega(n^\omega)$ time, where $\omega > 2$ is the exponent of matrix multiplication. We also develop algorithms for tolerant variants of our testing problem improving upon black-box linear program solvers, and give sample complexity lower bounds for alternative calibration measures to the one considered in this work. Finally, we present experiments showing the testing problem we define faithfully captures standard notions of calibration, and that our algorithms scale efficiently to accommodate large sample sizes.

arxiv情報

著者 Lunjia Hu,Arun Jambulapati,Kevin Tian,Chutong Yang
発行日 2024-06-21 17:27:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.CO, stat.ML パーマリンク