VLM-PL: Advanced Pseudo Labeling approach Class Incremental Object Detection with Vision-Language Model

要約

クラス増分オブジェクト検出 (CIOD) の分野では、人間と同じように継続的に学習できるモデルを作成することが大きな課題です。
疑似ラベル付け手法は、最初は強力ですが、過去の知識を忘れてしまう傾向があるため、複数のシナリオでの漸進的学習には苦労します。
これを克服するために、Vision-Language Model Assisted Pseudo-Labeling (VLM-PL) と呼ばれる新しいアプローチを導入します。
この手法では、ビジョン言語モデル (VLM) を使用して、追加のモデル トレーニングを必要とせずに、疑似グラウンド トゥルース (GT) の正しさを検証します。
VLM-PL は、事前トレーニングされた検出器から擬似 GT を導出することから始まります。
次に、画像とテキストの機能を組み合わせた慎重に設計されたプロンプト テンプレートを使用して、各疑似 GT のカスタム クエリを生成します。
これにより、VLM は応答を通じて正しさを分類できるようになります。
さらに、VLM-PL は、今後のトレーニングから洗練された擬似 GT と実際の G​​T を統合し、新しい知識と古い知識を効果的に組み合わせます。
Pascal VOC および MS COCO データセットに対して行われた広範な実験により、マルチ シナリオにおける VLM-PL の卓越したパフォーマンスが強調されるだけでなく、両方で最先端の結果が得られることで、デュアル シナリオにおける VLM-PL の有効性も明らかになります。

要約(オリジナル)

In the field of Class Incremental Object Detection (CIOD), creating models that can continuously learn like humans is a major challenge. Pseudo-labeling methods, although initially powerful, struggle with multi-scenario incremental learning due to their tendency to forget past knowledge. To overcome this, we introduce a new approach called Vision-Language Model assisted Pseudo-Labeling (VLM-PL). This technique uses Vision-Language Model (VLM) to verify the correctness of pseudo ground-truths (GTs) without requiring additional model training. VLM-PL starts by deriving pseudo GTs from a pre-trained detector. Then, we generate custom queries for each pseudo GT using carefully designed prompt templates that combine image and text features. This allows the VLM to classify the correctness through its responses. Furthermore, VLM-PL integrates refined pseudo and real GTs from upcoming training, effectively combining new and old knowledge. Extensive experiments conducted on the Pascal VOC and MS COCO datasets not only highlight VLM-PL’s exceptional performance in multi-scenario but also illuminate its effectiveness in dual-scenario by achieving state-of-the-art results in both.

arxiv情報

著者 Junsu Kim,Yunhoe Ku,Jihyeon Kim,Junuk Cha,Seungryul Baek
発行日 2024-03-08 14:23:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク