Open-Vocabulary Object Detectors: Robustness Challenges under Distribution Shifts

要約

Out-Of-Distribution (OOD) の堅牢性という課題は、ディープ ビジョン モデルの導入に向けた重大なハードルとなっています。
視覚言語モデル (VLM) は最近、画期的な成果を達成しました。
VLM ベースのオープン語彙オブジェクト検出は、従来のオブジェクト検出フレームワークの機能を拡張し、事前定義されたカテゴリを超えたオブジェクトの認識と分類を可能にします。
最近のオープン語彙オブジェクト検出における OOD の堅牢性を調査することは、これらのモデルの信頼性を高めるために不可欠です。
この研究では、最近の 3 つのオープンボキャブラリー (OV) 基礎物体検出モデル、OWL-ViT、YOLO World、および Grounding DINO のゼロショット機能の包括的なロバスト性評価を示します。
堅牢性ベンチマーク COCO-O、COCO-DC、COCO-C で実行された実験は、情報損失、破損、敵対的攻撃、幾何学的変形による分布の変化を網羅し、堅牢性を達成するための研究を促進するためのモデルの堅牢性の課題を浮き彫りにしました。

プロジェクトページ: https://prakashchhipa.github.io/projects/ovod_robustness

要約(オリジナル)

The challenge of Out-Of-Distribution (OOD) robustness remains a critical hurdle towards deploying deep vision models. Vision-Language Models (VLMs) have recently achieved groundbreaking results. VLM-based open-vocabulary object detection extends the capabilities of traditional object detection frameworks, enabling the recognition and classification of objects beyond predefined categories. Investigating OOD robustness in recent open-vocabulary object detection is essential to increase the trustworthiness of these models. This study presents a comprehensive robustness evaluation of the zero-shot capabilities of three recent open-vocabulary (OV) foundation object detection models: OWL-ViT, YOLO World, and Grounding DINO. Experiments carried out on the robustness benchmarks COCO-O, COCO-DC, and COCO-C encompassing distribution shifts due to information loss, corruption, adversarial attacks, and geometrical deformation, highlighting the challenges of the model’s robustness to foster the research for achieving robustness. Project page: https://prakashchhipa.github.io/projects/ovod_robustness

arxiv情報

著者 Prakash Chandra Chhipa,Kanjar De,Meenakshi Subhash Chippa,Rajkumar Saini,Marcus Liwicki
発行日 2024-09-06 15:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク