要約
このペーパーでは、バイ エンコーダー ベースの検出器を活用した新しい方法と、さまざまな特徴抽出器を使用した NLP におけるさまざまな分布外 (OOD) 検出方法を比較する包括的な研究を紹介します。
特徴抽出段階では、Universal Sentence Encoder (USE)、BERT、MPNET、GLOVE などの一般的な方法を使用して、テキスト データから情報表現を抽出します。
評価は、CLNC150、ROSTD-Coarse、SNIPS、YELLOW などの複数のデータセットに対して実行されます。
パフォーマンスは、F1 スコア、MCC、FPR@90、FPR@95、AUPR、AUROC などの指標を使用して評価されます。
実験結果は、提案されたバイエンコーダーベースの検出器が、すべてのデータセットにわたって、トレーニングで OOD ラベルを必要とする方法と必要ない方法の両方で、他の方法よりも優れたパフォーマンスを示し、NLP における OOD 検出の大きな可能性を示しています。
トレーニング プロセスの簡素化と優れた検出パフォーマンスにより、現実世界のシナリオに適用できます。
提示された方法とベンチマーク指標は、OOD 検出における将来の研究のための貴重なリソースとして機能し、この分野のさらなる進歩を可能にします。
コードと実装の詳細は、GitHub リポジトリ https://github.com/ yellowmessenger/ood-detection でご覧いただけます。
要約(オリジナル)
This paper introduces a novel method leveraging bi-encoder-based detectors along with a comprehensive study comparing different out-of-distribution (OOD) detection methods in NLP using different feature extractors. The feature extraction stage employs popular methods such as Universal Sentence Encoder (USE), BERT, MPNET, and GLOVE to extract informative representations from textual data. The evaluation is conducted on several datasets, including CLINC150, ROSTD-Coarse, SNIPS, and YELLOW. Performance is assessed using metrics such as F1-Score, MCC, FPR@90, FPR@95, AUPR, an AUROC. The experimental results demonstrate that the proposed bi-encoder-based detectors outperform other methods, both those that require OOD labels in training and those that do not, across all datasets, showing great potential for OOD detection in NLP. The simplicity of the training process and the superior detection performance make them applicable to real-world scenarios. The presented methods and benchmarking metrics serve as a valuable resource for future research in OOD detection, enabling further advancements in this field. The code and implementation details can be found on our GitHub repository: https://github.com/yellowmessenger/ood-detection.
arxiv情報
著者 | Louis Owen,Biddwan Ahmed,Abhay Kumar |
発行日 | 2024-03-13 08:49:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google