要約
パフォーマンス向上のためにモデルのパラメーターをスケールアップするという最近の傾向を受けて、リモート API を介して機械学習モデルにアクセスすることが普及してきています。
これらのモデルは優れた能力を示しますが、配布外 (OOD) サンプルはモデルから信頼性の低い出力を引き起こす可能性があるため、エンドユーザーにとっては依然として安全性に関する重大な懸念事項です。
この研究では、エンド ユーザーがモデルのパラメーターまたはそのアクティベーションにアクセスできない場合でも適用できる OOD 検出フレームワーク MixDiff を提案します。
アクセス制限を回避するために、MixDiff は、特定のターゲット サンプルと同様の分布内 (ID) サンプルに同一の入力レベルの摂動を適用し、これら 2 つのサンプルのモデル出力の相対的な差を比較します。
MixDiff はモデルに依存せず、既存の出力ベースの OOD 検出方法と互換性があります。
私たちは、モデルから自信過剰な出力を誘発する OOD サンプルの識別における MixDiff の有効性を説明する理論分析を提供し、MixDiff がビジョンおよびテキスト ドメインのさまざまなデータセットで OOD 検出パフォーマンスを一貫して強化することを経験的に実証します。
要約(オリジナル)
Accessing machine learning models through remote APIs has been gaining prevalence following the recent trend of scaling up model parameters for increased performance. Even though these models exhibit remarkable ability, detecting out-of-distribution (OOD) samples remains a crucial safety concern for end users as these samples may induce unreliable outputs from the model. In this work, we propose an OOD detection framework, MixDiff, that is applicable even when the model’s parameters or its activations are not accessible to the end user. To bypass the access restriction, MixDiff applies an identical input-level perturbation to a given target sample and a similar in-distribution (ID) sample, then compares the relative difference in the model outputs of these two samples. MixDiff is model-agnostic and compatible with existing output-based OOD detection methods. We provide theoretical analysis to illustrate MixDiff’s effectiveness in discerning OOD samples that induce overconfident outputs from the model and empirically demonstrate that MixDiff consistently enhances the OOD detection performance on various datasets in vision and text domains.
arxiv情報
著者 | Heeyoung Lee,Hoyoon Byun,Changdae Oh,JinYeong Bak,Kyungwoo Song |
発行日 | 2024-08-19 15:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google