要約
オープンワールド (OW) の認識および検出モデルは、ゼロショットおよび少数ショットの強力な適応能力を示し、パフォーマンスを向上させるための継続的な学習方法の初期化としての使用を促します。
目に見えるクラスでは有望な結果が得られたにもかかわらず、目に見えないクラスではそのような OW 能力は壊滅的な忘却により大きく低下します。
この課題に取り組むために、私たちはオープンワールドの継続的な物体検出タスクを提案します。これは、検出器が継続的な学習シナリオで古い、新しい、見たことのないカテゴリに一般化することを要求します。
このタスクに基づいて、検出能力を評価するための、挑戦的だが実用的な OW-COD ベンチマークを提示します。
目標は、OW 検出器が学習済みのクラスを保存し、新しいクラスに適応し、数ショット適応下でオープンワールド機能を維持できるようにすることです。
目に見えないカテゴリでの忘れを軽減するために、拡張性の高いメモリ プール内のメモリと検索メカニズムを介した、強力で効率的でスケーラブルなベースラインである MR-GDINO を提案します。
実験結果によると、既存の継続検出器は、見えるカテゴリーと見えないカテゴリーの両方で深刻な忘却に悩まされることが示されています。
対照的に、MR-GDINO はわずか 0.1% の有効化された追加パラメータで忘却を大幅に軽減し、古いもの、新しいもの、そしてまだ見ぬカテゴリに対して最先端のパフォーマンスを実現します。
要約(オリジナル)
Open-world (OW) recognition and detection models show strong zero- and few-shot adaptation abilities, inspiring their use as initializations in continual learning methods to improve performance. Despite promising results on seen classes, such OW abilities on unseen classes are largely degenerated due to catastrophic forgetting. To tackle this challenge, we propose an open-world continual object detection task, requiring detectors to generalize to old, new, and unseen categories in continual learning scenarios. Based on this task, we present a challenging yet practical OW-COD benchmark to assess detection abilities. The goal is to motivate OW detectors to simultaneously preserve learned classes, adapt to new classes, and maintain open-world capabilities under few-shot adaptations. To mitigate forgetting in unseen categories, we propose MR-GDINO, a strong, efficient and scalable baseline via memory and retrieval mechanisms within a highly scalable memory pool. Experimental results show that existing continual detectors suffer from severe forgetting for both seen and unseen categories. In contrast, MR-GDINO largely mitigates forgetting with only 0.1% activated extra parameters, achieving state-of-the-art performance for old, new, and unseen categories.
arxiv情報
著者 | Bowen Dong,Zitong Huang,Guanglei Yang,Lei Zhang,Wangmeng Zuo |
発行日 | 2024-12-20 15:22:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google