要約
半教師あり異常検出は、潜在的な異常は通常のトレーニング データとは異なって見えるレコードであるという原則に基づいています。
ただし、場合によっては、高い属性値 (または低い、ただし両方ではない) に対応する異常に特に関心があります。
この方向性を考慮した 2 つの非対称距離測定、ランプ距離と符号付き距離を示します。
合成データセットと実際のデータセットの実験を通じて、ランプ距離が異常検出で従来使用されていた絶対距離と同等かそれ以上のパフォーマンスを発揮することを示しました。
符号付き距離も合成データでは良好なパフォーマンスを発揮しますが、実際のデータセットではパフォーマンスが大幅に低下します。
これは実際には、一部の属性の良いスコアが他の属性の悪いスコアを補うことが許されるべきではないという事実を反映していると私たちは主張します。
要約(オリジナル)
Semi-supervised anomaly detection is based on the principle that potential anomalies are those records that look different from normal training data. However, in some cases we are specifically interested in anomalies that correspond to high attribute values (or low, but not both). We present two asymmetrical distance measures that take this directionality into account: ramp distance and signed distance. Through experiments on synthetic and real-life datasets we show that ramp distance performs as well or better than the absolute distance traditionally used in anomaly detection. While signed distance also performs well on synthetic data, it performs substantially poorer on real-life datasets. We argue that this reflects the fact that in practice, good scores on some attributes should not be allowed to compensate for bad scores on others.
arxiv情報
著者 | Oliver Urs Lenz,Matthijs van Leeuwen |
発行日 | 2024-10-30 16:11:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google