要約
異常検出は、サイバーセキュリティにおける侵入検出、金融リスク検出、人間の健康監視などの重要なタスクのさまざまな分野でますます重要な役割を果たしています。
さまざまな異常検出方法が提案されていますが、隔離フォレストのメカニズムに基づくカテゴリは、そのシンプルさ、有効性、効率性により際立っています。たとえば、iForest は、実際の導入のための最先端の検出器としてよく使用されます。
。
分離フォレストの大部分はバイナリ構造を使用していますが、フレームワーク LSHiForest は、マルチフォーク分離ツリー構造がより優れた検出パフォーマンスにつながる可能性があることを実証しています。
しかし、分岐因子に関する隔離林の最適な木構造に関する基本的かつ実際的に重要な疑問に答える理論的な研究はありません。
この論文では、質問に答え、分離ツリーの最適な分岐係数を決定するために分離効率に関する理論を確立します。
理論的基礎に基づいて、クラスタリングベースのハッシュ学習を組み込んだ実用的な最適分離フォレスト OptIForest を設計します。これにより、分離品質を向上させるためにデータからより多くの情報を学習できるようになります。
私たちのアプローチの理論的根拠は、OptIForest でのバイアス削減によって達成される、より優れたバイアスと分散のトレードオフに依存しています。
比較研究とアブレーション研究のための一連のベンチマーク データセットに対する広範な実験により、私たちのアプローチが、深層学習ベースの手法を含む最先端の手法よりも一般的に優れた検出パフォーマンスを効率的かつ確実に達成できることが実証されました。
要約(オリジナル)
Anomaly detection plays an increasingly important role in various fields for critical tasks such as intrusion detection in cybersecurity, financial risk detection, and human health monitoring. A variety of anomaly detection methods have been proposed, and a category based on the isolation forest mechanism stands out due to its simplicity, effectiveness, and efficiency, e.g., iForest is often employed as a state-of-the-art detector for real deployment. While the majority of isolation forests use the binary structure, a framework LSHiForest has demonstrated that the multi-fork isolation tree structure can lead to better detection performance. However, there is no theoretical work answering the fundamentally and practically important question on the optimal tree structure for an isolation forest with respect to the branching factor. In this paper, we establish a theory on isolation efficiency to answer the question and determine the optimal branching factor for an isolation tree. Based on the theoretical underpinning, we design a practical optimal isolation forest OptIForest incorporating clustering based learning to hash which enables more information to be learned from data for better isolation quality. The rationale of our approach relies on a better bias-variance trade-off achieved by bias reduction in OptIForest. Extensive experiments on a series of benchmarking datasets for comparative and ablation studies demonstrate that our approach can efficiently and robustly achieve better detection performance in general than the state-of-the-arts including the deep learning based methods.
arxiv情報
著者 | Haolong Xiang,Xuyun Zhang,Hongsheng Hu,Lianyong Qi,Wanchun Dou,Mark Dras,Amin Beheshti,Xiaolong Xu |
発行日 | 2023-06-22 07:14:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google