要約
異常値検出は、金融詐欺の防止、ネットワーク侵入の防御、デバイスの切迫した故障の検出など、実際のアプリケーションにおいて非常に重要である。外れ値検出結果の評価における人間の労力を削減し、効果的に外れ値を実用的な洞察に変えるために、ユーザはしばしば、外れ値検出結果のサブグループの解釈可能な要約を自動的に生成するシステムを期待する。残念ながら、今日までそのようなシステムは存在しない。このギャップを埋めるために、我々はSTAIRを提案する。STAIRは、異常値検出結果を要約し説明するために、人間が理解可能なコンパクトなルールセットを学習する。これらのルールを生成するために古典的な決定木アルゴリズムを用いるのではなく、STAIRは、検出結果を正確に要約するために、最小の複雑さ、すなわち強い解釈可能性を持つ少数のルールを生成する新しい最適化目標を提案する。STAIRの学習アルゴリズムは、大きなルールを反復的に分割することでルールセットを生成し、各反復においてこの目的を最大化するように最適化される。さらに、単純なルールでは要約が困難な高次元で非常に複雑なデータセットを効果的に扱うために、我々はL-STAIRと呼ばれる局所化STAIRアプローチを提案する。データの局所性を考慮し、同時にデータを分割し、各分割に対して局所化されたルールを学習する。多くの外れ値ベンチマークデータセットを用いた我々の実験的研究により、STAIRは決定木法に比べて、外れ値検出結果を要約するのに必要なルールの複雑さを大幅に削減し、人間にとってより理解しやすく、評価しやすいことが示された。
要約(オリジナル)
Outlier detection is critical in real applications to prevent financial fraud, defend network intrusions, or detecting imminent device failures. To reduce the human effort in evaluating outlier detection results and effectively turn the outliers into actionable insights, the users often expect a system to automatically produce interpretable summarizations of subgroups of outlier detection results. Unfortunately, to date no such systems exist. To fill this gap, we propose STAIR which learns a compact set of human understandable rules to summarize and explain the anomaly detection results. Rather than use the classical decision tree algorithms to produce these rules, STAIR proposes a new optimization objective to produce a small number of rules with least complexity, hence strong interpretability, to accurately summarize the detection results. The learning algorithm of STAIR produces a rule set by iteratively splitting the large rules and is optimal in maximizing this objective in each iteration. Moreover, to effectively handle high dimensional, highly complex data sets which are hard to summarize with simple rules, we propose a localized STAIR approach, called L-STAIR. Taking data locality into consideration, it simultaneously partitions data and learns a set of localized rules for each partition. Our experimental study on many outlier benchmark datasets shows that STAIR significantly reduces the complexity of the rules required to summarize the outlier detection results, thus more amenable for humans to understand and evaluate, compared to the decision tree methods.
arxiv情報
著者 | Yu Wang,Lei Cao,Yizhou Yan,Samuel Madden |
発行日 | 2023-09-01 07:49:21+00:00 |
arxivサイト | arxiv_id(pdf) |