要約
半教師付き視覚接地(Semi-Supervised Visual Grounding: SSVG)は、その疎なラベル付きデータとマルチモデル理解の必要性から、新たな課題となっている。先行研究であるRefTeacherは、教師-生徒の枠組みを採用し、擬似的な信頼度監視と注意に基づく監視を提供することで、この課題に取り組む最初の試みを行っている。しかし、このアプローチは、Transformerベースのパイプラインに従う現在の最先端の視覚的接地モデルとは相容れない。これらのパイプラインは、領域提案や前景二値分類を行わずに結果を直接回帰するため、信頼度スコアがないためにRefTeacherでのフィッティングには適さない。さらに、教師と生徒の入力の幾何学的な違いは、異なるデータ補強に由来し、注意に基づく制約の自然なずれを引き起こす。互換性のあるSSVGフレームワークを確立するために、我々の論文では、ACTRESSと略されるSemi-Supervised Visual GroundingのためのACTive REtrainingアプローチを提案する。最初に、検出信頼度を明らかにするために、量子化された検出ヘッドを追加してモデルを強化する。これを基に、ACTRESSは能動的サンプリング戦略と選択的再トレーニング戦略から構成される。能動的サンプリング戦略は、3つの重要な側面を評価することにより、高品質の擬似ラベルを繰り返し選択する:忠実度(Faithfulness)、頑健度(Robustness)、信頼度(Confidence)の3つの重要な側面を評価することで、未ラベルデータの利用を最適化する。選択的再学習戦略は、特定のパラメータを定期的に再初期化することでモデルを再学習し、モデルの局所極小値からの脱出を容易にする。広範な実験により、広く利用されているベンチマークデータセットにおいて、我々の優れた性能が実証されている。
要約(オリジナル)
Semi-Supervised Visual Grounding (SSVG) is a new challenge for its sparse labeled data with the need for multimodel understanding. A previous study, RefTeacher, makes the first attempt to tackle this task by adopting the teacher-student framework to provide pseudo confidence supervision and attention-based supervision. However, this approach is incompatible with current state-of-the-art visual grounding models, which follow the Transformer-based pipeline. These pipelines directly regress results without region proposals or foreground binary classification, rendering them unsuitable for fitting in RefTeacher due to the absence of confidence scores. Furthermore, the geometric difference in teacher and student inputs, stemming from different data augmentations, induces natural misalignment in attention-based constraints. To establish a compatible SSVG framework, our paper proposes the ACTive REtraining approach for Semi-Supervised Visual Grounding, abbreviated as ACTRESS. Initially, the model is enhanced by incorporating an additional quantized detection head to expose its detection confidence. Building upon this, ACTRESS consists of an active sampling strategy and a selective retraining strategy. The active sampling strategy iteratively selects high-quality pseudo labels by evaluating three crucial aspects: Faithfulness, Robustness, and Confidence, optimizing the utilization of unlabeled data. The selective retraining strategy retrains the model with periodic re-initialization of specific parameters, facilitating the model’s escape from local minima. Extensive experiments demonstrates our superior performance on widely-used benchmark datasets.
arxiv情報
著者 | Weitai Kang,Mengxue Qu,Yunchao Wei,Yan Yan |
発行日 | 2024-07-03 16:33:31+00:00 |
arxivサイト | arxiv_id(pdf) |