要約
テキストの異常検出は、自然言語処理タスクにおいてスパム、誤った情報、不快な言葉を識別するために非常に重要です。
埋め込みベースの手法の採用が増えているにもかかわらず、その有効性と多様なアプリケーション シナリオ全体にわたる汎用性はまだ十分に検討されていません。
これに対処するために、テキスト異常検出のための埋め込みベースのアプローチを体系的に評価するように設計された包括的なベンチマークである TAD-Bench を紹介します。
TAD-Bench は、さまざまなドメインにまたがる複数のデータセットを統合し、大規模な言語モデルからの最先端の埋め込みとさまざまな異常検出アルゴリズムを組み合わせます。
広範な実験を通じて、埋め込みと検出方法の間の相互作用を分析し、その長所、短所、およびさまざまなタスクへの適用可能性を明らかにします。
これらの発見は、現実世界のアプリケーション向けに、より堅牢で効率的で汎用性のある異常検出システムを構築する上で新たな視点を提供します。
要約(オリジナル)
Text anomaly detection is crucial for identifying spam, misinformation, and offensive language in natural language processing tasks. Despite the growing adoption of embedding-based methods, their effectiveness and generalizability across diverse application scenarios remain under-explored. To address this, we present TAD-Bench, a comprehensive benchmark designed to systematically evaluate embedding-based approaches for text anomaly detection. TAD-Bench integrates multiple datasets spanning different domains, combining state-of-the-art embeddings from large language models with a variety of anomaly detection algorithms. Through extensive experiments, we analyze the interplay between embeddings and detection methods, uncovering their strengths, weaknesses, and applicability to different tasks. These findings offer new perspectives on building more robust, efficient, and generalizable anomaly detection systems for real-world applications.
arxiv情報
著者 | Yang Cao,Sikun Yang,Chen Li,Haolong Xiang,Lianyong Qi,Bo Liu,Rongsheng Li,Ming Liu |
発行日 | 2025-01-21 08:13:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google