要約
異常検出 (AD) は、ビジョンや時系列などの確立されたアプリケーションの間で急速に成長しており、人気のある分野です。
これらのアプリケーションに関する文献は豊富にありますが、テキスト内の異常検出はまだ開花し始めたばかりです。
最近では、自己注意メカニズムを備えた自己監視型手法が最も一般的な選択肢となっています。
最近の研究では、最先端のアプローチを構築およびベンチマークするための作業基盤が提案されていますが、この論文では、コンテキスト異常汚染と新しいアンサンブルベースのアプローチという 2 つの主要な貢献を提案します。
私たちの手法である Textual Anomaly Contamination (TAC) を使用すると、インライア クラスを独立した異常または文脈上の異常で汚染することができます。
文献では、この区別は行われていないようです。
コンテキストの異常を見つけるために、私たちは RosaE (堅牢な部分空間ローカル回復オートエンコーダー アンサンブル) を提案します。
アンサンブルのすべてのオートエンコーダーは、ローカル多様体学習を通じて異なる潜在表現を提示します。
ベンチマークは、私たちのアプローチが独立した異常と状況に応じた異常の両方で最近の研究よりも優れていると同時に、より堅牢であることを示しています。
また、ロイターと 20 のニュースグループ コーパスのみに依存するのではなく、8 つのデータセットの比較も提供します。
要約(オリジナル)
Anomaly detection (AD) is a fast growing and popular domain among established applications like vision and time series. We observe a rich literature for these applications, but anomaly detection in text is only starting to blossom. Recently, self-supervised methods with self-attention mechanism have been the most popular choice. While recent works have proposed a working ground for building and benchmarking state of the art approaches, we propose two principal contributions in this paper: contextual anomaly contamination and a novel ensemble-based approach. Our method, Textual Anomaly Contamination (TAC), allows to contaminate inlier classes with either independent or contextual anomalies. In the literature, it appears that this distinction is not performed. For finding contextual anomalies, we propose RoSAE, a Robust Subspace Local Recovery Autoencoder Ensemble. All autoencoders of the ensemble present a different latent representation through local manifold learning. Benchmark shows that our approach outperforms recent works on both independent and contextual anomalies, while being more robust. We also provide 8 dataset comparison instead of only relying to Reuters and 20 Newsgroups corpora.
arxiv情報
著者 | Jeremie Pantin,Christophe Marsala |
発行日 | 2024-09-18 10:06:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google