Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

要約

配布外 (OOD) サンプルの検出は、機械学習システムの安全性を確保するために重要であり、OOD 検出の分野を形作ってきました。
一方、異常検出 (AD)、新規性検出 (ND)、開集合認識 (OSR)、および外れ値検出 (OD) など、他のいくつかの問題が OOD 検出に密接に関連しています。
これらの問題を統合するために、これら 5 つの問題を分類学的に分類する、一般化された OOD 検出フレームワークが提案されました。
しかし、CLIP などのビジョン言語モデル (VLM) はパラダイムを大きく変え、これらの分野間の境界があいまいになり、再び研究者を混乱させています。
この調査では、まず、VLM 時代の AD、ND、OSR、OOD 検出、OD の進化をカプセル化した、一般化された OOD 検出 v2 を紹介します。
私たちのフレームワークは、フィールドの非アクティブ化と統合により、要求の厳しい課題が OOD 検出と AD になることを明らかにしています。
さらに、定義、問題設定、ベンチマークの大幅な変更も強調します。
したがって、OOD 検出との関係を明確にするための他の関連タスクに関する議論を含む、OOD 検出の方法論の包括的なレビューを特集します。
最後に、GPT-4V など、新興のラージ ビジョン言語モデル (LVLM) 時代の進歩について探ります。
未解決の課題と将来の方向性についてこの調査を締めくくります。

要約(オリジナル)

Detecting out-of-distribution (OOD) samples is crucial for ensuring the safety of machine learning systems and has shaped the field of OOD detection. Meanwhile, several other problems are closely related to OOD detection, including anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). To unify these problems, a generalized OOD detection framework was proposed, taxonomically categorizing these five problems. However, Vision Language Models (VLMs) such as CLIP have significantly changed the paradigm and blurred the boundaries between these fields, again confusing researchers. In this survey, we first present a generalized OOD detection v2, encapsulating the evolution of AD, ND, OSR, OOD detection, and OD in the VLM era. Our framework reveals that, with some field inactivity and integration, the demanding challenges have become OOD detection and AD. In addition, we also highlight the significant shift in the definition, problem settings, and benchmarks; we thus feature a comprehensive review of the methodology for OOD detection, including the discussion over other related tasks to clarify their relationship to OOD detection. Finally, we explore the advancements in the emerging Large Vision Language Model (LVLM) era, such as GPT-4V. We conclude this survey with open challenges and future directions.

arxiv情報

著者 Atsuyuki Miyai,Jingkang Yang,Jingyang Zhang,Yifei Ming,Yueqian Lin,Qing Yu,Go Irie,Shafiq Joty,Yixuan Li,Hai Li,Ziwei Liu,Toshihiko Yamasaki,Kiyoharu Aizawa
発行日 2024-07-31 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク