WATCH: Weighted Adaptive Testing for Changepoint Hypotheses via Weighted-Conformal Martingales

要約

ハイステークス設定で人工知能(AI) /機械学習(ML)システムを責任を持って展開するには、間違いなくシステムの信頼性の証明だけでなく、安全でない動作を迅速に検出および対処するための継続的な展開後の監視が必要です。
ノンパラメトリック変化点検出のための統計的方法 – 特に、コンフォーマルテストマルチンゲール(CTMS)のツールといつでも検証された推論 – は、この監視タスクに対する有望なアプローチを提供します。
ただし、既存の方法は、限られた仮説クラスまたは「アラーム基準」、または特定の交換可能性の仮定に違反するデータシフトなど、シフトに応じてオンライン適応を許可しないような監視に限定されています。
このホワイトペーパーでは、偽のアラームを制御しながら、データ分布の予期しない変更点のオンライン監視の理論的基盤を築くための理論的基礎を築くための適合テストマーティンゲレス(WCTMS)の加重一般化を提案することにより、これらの監視方法の範囲を拡大します。
実用的なアプリケーションについては、概念シフト(条件付きラベル分布)や極端な(サポート外)などのより深刻なシフトに応答して、軽度の共変量シフト(限界入力分布)へのオンライン適応に対応する特定のWCTMアルゴリズムを提案します。
実際のデータセットでは、最先端のベースラインと比較してパフォーマンスの向上を示します。

要約(オリジナル)

Responsibly deploying artificial intelligence (AI) / machine learning (ML) systems in high-stakes settings arguably requires not only proof of system reliability, but moreover continual, post-deployment monitoring to quickly detect and address any unsafe behavior. Statistical methods for nonparametric change-point detection — especially the tools of conformal test martingales (CTMs) and anytime-valid inference — offer promising approaches to this monitoring task. However, existing methods are restricted to monitoring limited hypothesis classes or “alarm criteria,” such as data shifts that violate certain exchangeability assumptions, or do not allow for online adaptation in response to shifts. In this paper, we expand the scope of these monitoring methods by proposing a weighted generalization of conformal test martingales (WCTMs), which lay a theoretical foundation for online monitoring for any unexpected changepoints in the data distribution while controlling false-alarms. For practical applications, we propose specific WCTM algorithms that accommodate online adaptation to mild covariate shifts (in the marginal input distribution) while raising alarms in response to more severe shifts, such as concept shifts (in the conditional label distribution) or extreme (out-of-support) covariate shifts that cannot be easily adapted to. On real-world datasets, we demonstrate improved performance relative to state-of-the-art baselines.

arxiv情報

著者 Drew Prinster,Xing Han,Anqi Liu,Suchi Saria
発行日 2025-05-07 17:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク