Mitigating Hallucinations in YOLO-based Object Detection Models: A Revisit to Out-of-Distribution Detection

要約

オブジェクト検出システムは、動的環境での安全な意思決定を確保するために過度に自信を持つことなく、関心のあるオブジェクトを確実に知覚する必要があります。
分散除外(OOD)検出に基づくフィルタリング手法は、一般的に、新しいオブジェクトの自信過剰によって引き起こされる幻覚をフィルタリングするための追加の保護手段として追加されています。
それにもかかわらず、既存のOODベンチマークの下でヨロファミリー検出器とそのフィルターを評価することは、しばしば不十分なパフォーマンスにつながります。
この論文は、パフォーマンスボトルネックの根本的な理由を研究し、パフォーマンスを根本的に改善する方法を提案します。
私たちの最初の貢献は、既存のすべての評価結果のキャリブレーションです。既存のOODベンチマークデータセットの画像は、ディストリビューション(ID)クラス(つまり、トレーニングデータセットで定義されたカテゴリ)内にオブジェクトを持っていないと主張されていますが、オブジェクト検出器によって検出されたオブジェクトの約13%は実際にはIDオブジェクトです。
二重に、OODオブジェクトを含むIDデータセットは、フィルターの決定境界にも悪影響を与える可能性があります。
これらは最終的に、パフォーマンスの推定を大幅に非難することにつながります。
私たちの2番目の貢献は、幻覚の減少のタスクを、検出器とフィルターの共同パイプラインとして考慮することです。
検出されるオブジェクトに意味的に似ているOODデータセットを慎重に合成する方法論を開発することにより、オブジェクトスコアを抑制するためにYolo検出器の微調整で細工されたOODデータセットを使用して、自己調整された検出システムでの全体的な幻覚エラーの88%の減少を達成します。
コードとデータセットは、https://gricad-gitlab.univ-grenoble-alpes.fr/dnn-safety/m-hoodで入手できます。

要約(オリジナル)

Object detection systems must reliably perceive objects of interest without being overly confident to ensure safe decision-making in dynamic environments. Filtering techniques based on out-of-distribution (OoD) detection are commonly added as an extra safeguard to filter hallucinations caused by overconfidence in novel objects. Nevertheless, evaluating YOLO-family detectors and their filters under existing OoD benchmarks often leads to unsatisfactory performance. This paper studies the underlying reasons for performance bottlenecks and proposes a methodology to improve performance fundamentally. Our first contribution is a calibration of all existing evaluation results: Although images in existing OoD benchmark datasets are claimed not to have objects within in-distribution (ID) classes (i.e., categories defined in the training dataset), around 13% of objects detected by the object detector are actually ID objects. Dually, the ID dataset containing OoD objects can also negatively impact the decision boundary of filters. These ultimately lead to a significantly imprecise performance estimation. Our second contribution is to consider the task of hallucination reduction as a joint pipeline of detectors and filters. By developing a methodology to carefully synthesize an OoD dataset that semantically resembles the objects to be detected, and using the crafted OoD dataset in the fine-tuning of YOLO detectors to suppress the objectness score, we achieve a 88% reduction in overall hallucination error with a combined fine-tuned detection and filtering system on the self-driving benchmark BDD-100K. Our code and dataset are available at: https://gricad-gitlab.univ-grenoble-alpes.fr/dnn-safety/m-hood.

arxiv情報

著者 Weicheng He,Changshun Wu,Chih-Hong Cheng,Xiaowei Huang,Saddek Bensalem
発行日 2025-03-10 13:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SE パーマリンク