Testing Calibration in Subquadratic Time

要約

機械学習と意思決定に関する最近の文献では、バイナリ予測モデルの出力の望ましい統計的特性としてキャリブレーションが広く研究されていることが明らかになりました。
ただし、測定モデルのキャリブレーションのアルゴリズムの側面は、比較的十分に調査されていないままです。
校正までの距離を測定するための厳密な枠組みを提案した [BGHN23] に動機付けられ、我々は特性試験のレンズを通して校正のアルゴリズム研究を開始しました。
与えられた $n$ が (予測、バイナリ結果) の分布 $\mathcal{D}$ から引き出されるサンプルからの校正テストの問題を定義します。私たちの目標は、$\mathcal{D}$ が次の場合を区別することです。
完全に校正されている場合と、$\mathcal{D}$ が $\varepsilon$ である場合は校正から程遠いです。
近似線形計画法に基づいたアルゴリズムを設計し、$O(n^{1.5} \log(n))$ 以内に校正テスト情報を理論的に最適に (定数係数まで) 解決します。
これは、$\Omega(n^\omega)$ 時間を必要とする最先端のブラックボックス線形プログラム ソルバーを改善します。ここで、$\omega > 2$ は行列乗算の指数です。
また、テスト問題の許容バリエーション用のアルゴリズムも開発し、サンプルの複雑さに対して、この作業で考慮したものとは別のキャリブレーション距離の下限を与えます。
最後に、私たちが定義したテスト問題が校正の標準的な概念を忠実に捉えていること、および私たちのアルゴリズムが適度なサンプルサイズに対応できるように拡張されていることを示す予備実験を紹介します。

要約(オリジナル)

In the recent literature on machine learning and decision making, calibration has emerged as a desirable and widely-studied statistical property of the outputs of binary prediction models. However, the algorithmic aspects of measuring model calibration have remained relatively less well-explored. Motivated by [BGHN23], which proposed a rigorous framework for measuring distances to calibration, we initiate the algorithmic study of calibration through the lens of property testing. We define the problem of calibration testing from samples where given $n$ draws from a distribution $\mathcal{D}$ on (predictions, binary outcomes), our goal is to distinguish between the case where $\mathcal{D}$ is perfectly calibrated, and the case where $\mathcal{D}$ is $\varepsilon$-far from calibration. We design an algorithm based on approximate linear programming, which solves calibration testing information-theoretically optimally (up to constant factors) in time $O(n^{1.5} \log(n))$. This improves upon state-of-the-art black-box linear program solvers requiring $\Omega(n^\omega)$ time, where $\omega > 2$ is the exponent of matrix multiplication. We also develop algorithms for tolerant variants of our testing problem, and give sample complexity lower bounds for alternative calibration distances to the one considered in this work. Finally, we present preliminary experiments showing that the testing problem we define faithfully captures standard notions of calibration, and that our algorithms scale to accommodate moderate sample sizes.

arxiv情報

著者 Lunjia Hu,Kevin Tian,Chutong Yang
発行日 2024-02-20 17:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.CO, stat.ML パーマリンク