Trapped in texture bias? A large scale comparison of deep instance segmentation

要約

セグメンテーションなどの深層学習モデルは、体系的な方法で新しいオブジェクトに一般化されますか?
分類上、そのような行為は問題視されています。
この研究では、フレームワーク、アーキテクチャ、事前トレーニングなどの特定の設計上の決定が、インスタンスのセグメンテーションの意味理解に寄与するかどうかを理解することを目的としています。
この質問に答えるために、堅牢性の特殊なケースを考慮し、オブジェクト中心の配布外テクスチャの難しいベンチマークで事前トレーニングされたモデルを比較します。
この作業では別の方法は紹介しません。
その代わりに、私たちは一歩下がって既存の文献を幅広く評価します。
これには、カスケードおよびマスク R-CNN、Swin Transformer、BMask、YOLACT(++)、DETR、BCNet、SOTR、および SOLOv2 が含まれます。
YOLACT++、SOTR、および SOLOv2 は、他のフレームワークよりも配布外のテクスチャに対して大幅に堅牢であることがわかりました。
さらに、より深く動的なアーキテクチャは堅牢性を向上させますが、トレーニング スケジュール、データ拡張、事前トレーニングの影響はわずかであることを示します。
要約すると、MS COCO の 61 バージョンで 68 モデルを評価し、合計 4148 件の評価を行いました。

要約(オリジナル)

Do deep learning models for instance segmentation generalize to novel objects in a systematic way? For classification, such behavior has been questioned. In this study, we aim to understand if certain design decisions such as framework, architecture or pre-training contribute to the semantic understanding of instance segmentation. To answer this question, we consider a special case of robustness and compare pre-trained models on a challenging benchmark for object-centric, out-of-distribution texture. We do not introduce another method in this work. Instead, we take a step back and evaluate a broad range of existing literature. This includes Cascade and Mask R-CNN, Swin Transformer, BMask, YOLACT(++), DETR, BCNet, SOTR and SOLOv2. We find that YOLACT++, SOTR and SOLOv2 are significantly more robust to out-of-distribution texture than other frameworks. In addition, we show that deeper and dynamic architectures improve robustness whereas training schedules, data augmentation and pre-training have only a minor impact. In summary we evaluate 68 models on 61 versions of MS COCO for a total of 4148 evaluations.

arxiv情報

著者 Johannes Theodoridis,Jessica Hofmann,Johannes Maucher,Andreas Schilling
発行日 2024-01-17 10:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2 パーマリンク