Exact characterization of ε-Safe Decision Regions for exponential family distributions and Multi Cost SVM approximation

要約

信頼できると見なすことができるモデルを定義するには、データ駆動型分類器の予測に関する確率的保証が必要です。
これは、システムの良さが信頼性の観点から測定される現代の機械学習の重要な要件であり、安全なものを安全でないものと明確に分割します。
この論文の精神はまさにこの方向にあります。
最初に、標的(安全)クラスの予測が確率的に保証される入力空間のサブセットである{\ epsilon} safe決定領域の正式な定義を紹介します。
第二に、データが指数関数的な家族分布から生じると、そのような領域の形式が設計パラメーター、つまりターゲットクラスをサンプリングする確率と予測の信頼性によって分析的に決定され、制御可能であることを証明します。
ただし、指数データを持つことの要求は常に可能ではありません。
この制限に触発されて、安全な領域に近いSVMベースのアルゴリズムであるマルチコストSVMを開発しました。
この研究は、再現性のために利用可能な実験とコードによって補完されます。

要約(オリジナル)

Probabilistic guarantees on the prediction of data-driven classifiers are necessary to define models that can be considered reliable. This is a key requirement for modern machine learning in which the goodness of a system is measured in terms of trustworthiness, clearly dividing what is safe from what is unsafe. The spirit of this paper is exactly in this direction. First, we introduce a formal definition of {\epsilon}-Safe Decision Region, a subset of the input space in which the prediction of a target (safe) class is probabilistically guaranteed. Second, we prove that, when data come from exponential family distributions, the form of such a region is analytically determined and controllable by design parameters, i.e. the probability of sampling the target class and the confidence on the prediction. However, the request of having exponential data is not always possible. Inspired by this limitation, we developed Multi Cost SVM, an SVM based algorithm that approximates the safe region and is also able to handle unbalanced data. The research is complemented by experiments and code available for reproducibility.

arxiv情報

著者 Alberto Carlevaro,Teodoro Alamo,Fabrizio Dabbene,Maurizio Mongelli
発行日 2025-01-29 16:14:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク