要約
予測駆動の推論(PPI)は、統計的推定を実行するために、金標準とおそらく騒々しい擬似ラベルを組み合わせるための一般的な戦略です。
以前の研究では、PPIの適応型であるPPI ++の漸近的な「フリーランチ」が示されており、PPI ++の *漸近 *分散は、金標準ラベルのみを使用して得られた分散以下であることを示しています。
特に、この結果は、擬似ラベル *の品質に関係なく *を保持します。
この作業では、平均推定問題に関するPPI ++の推定誤差の正確な有限サンプル分析を実施することにより、この結果を分かりやすく説明します。
「無料の昼食なし」の結果を出し、PPI ++が金標準のラベルだけを使用するよりも推定誤差が証明されている設定(およびサンプルサイズ)を特徴づけます。
具体的には、擬似標準と金標準の相関がラベル付きサンプルの数($ n $)に依存する特定のレベルを上回っている場合にのみ、PPI ++がアウトパフォームします。
場合によっては、私たちの結果はかなり単純化します。ガウスデータの場合、相関は改善を確認するために少なくとも1/\ sqrt {n -2} $でなければなりません。また、バイナリラベルの同様の結果が得られます。
実験では、理論的な調査結果が実際のデータセットに当てはまり、PPI ++のシングルサンプルとサンプルスプリッティバリアントの間のトレードオフに関する洞察を与えることを示しています。
要約(オリジナル)
Prediction-Powered Inference (PPI) is a popular strategy for combining gold-standard and possibly noisy pseudo-labels to perform statistical estimation. Prior work has shown an asymptotic ‘free lunch’ for PPI++, an adaptive form of PPI, showing that the *asymptotic* variance of PPI++ is always less than or equal to the variance obtained from using gold-standard labels alone. Notably, this result holds *regardless of the quality of the pseudo-labels*. In this work, we demystify this result by conducting an exact finite-sample analysis of the estimation error of PPI++ on the mean estimation problem. We give a ‘no free lunch’ result, characterizing the settings (and sample sizes) where PPI++ has provably worse estimation error than using gold-standard labels alone. Specifically, PPI++ will outperform if and only if the correlation between pseudo- and gold-standard is above a certain level that depends on the number of labeled samples ($n$). In some cases our results simplify considerably: For Gaussian data, the correlation must be at least $1/\sqrt{n – 2}$ in order to see improvement, and a similar result holds for binary labels. In experiments, we illustrate that our theoretical findings hold on real-world datasets, and give insights into trade-offs between single-sample and sample-splitting variants of PPI++.
arxiv情報
著者 | Pranav Mani,Peng Xu,Zachary C. Lipton,Michael Oberst |
発行日 | 2025-05-26 16:18:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google