埋め込みベースの手法の採用が増えているにもかかわらず、その有効性と多様なアプリケーション シナリオ全体にわたる汎用性はまだ十分に検討されていません。
これに対処するために、テキスト異常検出のための埋め込みベースのアプローチを体系的に評価するように設計された包括的なベンチマークである TAD-Bench を紹介します。
TAD-Bench は、さまざまなドメインにまたがる複数のデータセットを統合し、大規模な言語モデルからの最先端の埋め込みとさまざまな異常検出アルゴリズムを組み合わせます。
Text anomaly detection is crucial for identifying spam, misinformation, and offensive language in natural language processing tasks. Despite the growing adoption of embedding-based methods, their effectiveness and generalizability across diverse application scenarios remain under-explored. To address this, we present TAD-Bench, a comprehensive benchmark designed to systematically evaluate embedding-based approaches for text anomaly detection. TAD-Bench integrates multiple datasets spanning different domains, combining state-of-the-art embeddings from large language models with a variety of anomaly detection algorithms. Through extensive experiments, we analyze the interplay between embeddings and detection methods, uncovering their strengths, weaknesses, and applicability to different tasks. These findings offer new perspectives on building more robust, efficient, and generalizable anomaly detection systems for real-world applications.
著者 | Yang Cao,Sikun Yang,Chen Li,Haolong Xiang,Lianyong Qi,Bo Liu,Rongsheng Li,Ming Liu |
発行日 | 2025-01-21 08:13:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google