要約
表形式データのディープラーニングは近年ますます注目を集めていますが、構造化データにディープモデルを採用することは依然として困難です。
これらのモデルは非構造化データでは優れていますが、構造化データでは効果が限られています。
最近の研究では、このギャップに対処するために検索拡張モデルが導入され、分類や回帰などの教師ありタスクで有望な結果が実証されました。
この研究では、表形式データの異常検出に検索拡張モデルを使用して調査します。
私たちは、変換モデルが \textit{normal} サンプルのマスクされた特徴を再構成することを学習する、再構成ベースのアプローチを提案します。
KNN ベースおよびアテンションベースのモジュールの有効性をテストして、ターゲット サンプルの再構成プロセスに役立つ関連サンプルを選択します。
31 の表形式データセットのベンチマークに関する実験では、この再構成ベースの異常検出 (AD) 手法を、検索モジュールを介したノンパラメトリックな関係で強化すると、パフォーマンスが大幅に向上する可能性があることが明らかになりました。
要約(オリジナル)
Deep learning for tabular data has garnered increasing attention in recent years, yet employing deep models for structured data remains challenging. While these models excel with unstructured data, their efficacy with structured data has been limited. Recent research has introduced retrieval-augmented models to address this gap, demonstrating promising results in supervised tasks such as classification and regression. In this work, we investigate using retrieval-augmented models for anomaly detection on tabular data. We propose a reconstruction-based approach in which a transformer model learns to reconstruct masked features of \textit{normal} samples. We test the effectiveness of KNN-based and attention-based modules to select relevant samples to help in the reconstruction process of the target sample. Our experiments on a benchmark of 31 tabular datasets reveal that augmenting this reconstruction-based anomaly detection (AD) method with non-parametric relationships via retrieval modules may significantly boost performance.
arxiv情報
著者 | Hugo Thimonier,Fabrice Popineau,Arpad Rimmel,Bich-Liên Doan |
発行日 | 2024-01-30 14:33:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google