TAD-Bench: A Comprehensive Benchmark for Embedding-Based Text Anomaly Detection

要約

テキストの異常検出は、自然言語処理タスクにおけるスパム、誤った情報、および攻撃的な言語を特定するために重要です。
埋め込みベースの方法の採用が増加しているにもかかわらず、多様なアプリケーションシナリオ全体でそれらの有効性と一般化可能性は未調査のままです。
これに対処するために、テキストの異常検出のための埋め込みベースのアプローチを体系的に評価するように設計された包括的なベンチマークであるTADベンチを提示します。
TADベンチは、異なるドメインにまたがる複数のデータセットを統合し、大規模な言語モデルからの最先端の埋め込みと、さまざまな異常検出アルゴリズムを組み合わせます。
広範な実験を通じて、埋め込み方法と検出方法との相互作用を分析し、さまざまなタスクへの強み、弱点、適用性を明らかにします。
これらの調査結果は、実際のアプリケーション向けに、より堅牢で効率的で一般化可能な異常検出システムの構築に関する新しい視点を提供します。

要約(オリジナル)

Text anomaly detection is crucial for identifying spam, misinformation, and offensive language in natural language processing tasks. Despite the growing adoption of embedding-based methods, their effectiveness and generalizability across diverse application scenarios remain under-explored. To address this, we present TAD-Bench, a comprehensive benchmark designed to systematically evaluate embedding-based approaches for text anomaly detection. TAD-Bench integrates multiple datasets spanning different domains, combining state-of-the-art embeddings from large language models with a variety of anomaly detection algorithms. Through extensive experiments, we analyze the interplay between embeddings and detection methods, uncovering their strengths, weaknesses, and applicability to different tasks. These findings offer new perspectives on building more robust, efficient, and generalizable anomaly detection systems for real-world applications.

arxiv情報

著者 Yang Cao,Sikun Yang,Chen Li,Haolong Xiang,Lianyong Qi,Bo Liu,Rongsheng Li,Ming Liu
発行日 2025-05-23 14:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク