要約
最近の人工知能の目覚ましい進歩は、自己教師あり学習スキームの統合によるものであると考えられています。
NLP 内での目覚ましい成果にもかかわらず、コンピュータ ビジョンにおける SSL は比較的順調に進んでいません。
最近、既存の SSL モデルに対照学習を統合することにより、コンピュータ ビジョンが大幅に進歩し、それによって視覚的な SSL モデルが教師付きモデルを上回るパフォーマンスを発揮しました。
それにもかかわらず、これらの改善のほとんどは分類タスクに限定されており、また、コンピュータ ビジョンの現実世界のシナリオにおける SSL モデルの評価に特化した研究はほとんどなく、研究の大部分はクラスごとのポートレート画像を含むデータセットを中心としています。
最も注目すべきは ImageNet です。
したがって、この研究では、提案したモデルのセグメンテーション局所化を評価するために、セキュリティ検査 X 線画像のセマンティック セグメンテーションの密な予測タスクを検討しました。
モデル Instance Localization に基づいて、私たちのモデル SegLoc は、対照学習の最も困難な欠点の 1 つ、つまりクエリ埋め込みの偽陰性ペアに対処することができました。
そのために、ベースライン モデル InsLoc とは対照的に、事前トレーニング データセットは、利用可能なラベル付きデータセット (前景) からラベル付きセグメントをトリミング、変換し、ラベルなしデータセット (背景) のインスタンスに貼り付けることによって合成されます。
この場合、PIDray データセットと SIXray データセットは、それぞれラベル付きデータセットとラベルなしデータセットとみなされます。
さらに、MoCo-v2 ではクラスごとに 1 つのキューというアイデアを実装することで偽陰性ペアを回避し、ラベルを完全に活用します。これにより、各クエリに対応するネガティブ ペアがメモリ バンク内の対応するキューから抽出されます。
私たちのアプローチは、ランダム初期化のパフォーマンスを 3% ~ 6% 上回りましたが、監視付き初期化のパフォーマンスは下回っていました。
要約(オリジナル)
Lately, remarkable advancements of artificial intelligence have been attributed to the integration of self-supervised learning scheme. Despite impressive achievements within NLP, yet SSL in computer vision has not been able to stay on track comparatively. Recently, integration of contrastive learning on top of existing SSL models has established considerable progress in computer vision through which visual SSL models have outperformed their supervised counterparts. Nevertheless, most of these improvements were limited to classification tasks, and also, few works have been dedicated to evaluation of SSL models in real-world scenarios of computer vision, while the majority of works are centered around datasets containing class-wise portrait images, most notably, ImageNet. Consequently, in this work, we have considered dense prediction task of semantic segmentation in security inspection x-ray images to evaluate our proposed model Segmentation Localization. Based upon the model Instance Localization, our model SegLoc has managed to address one of the most challenging downsides of contrastive learning, i.e., false negative pairs of query embeddings. In order to do so, in contrast to baseline model InsLoc, our pretraining dataset is synthesized by cropping, transforming, then pasting already labeled segments from an available labeled dataset, foregrounds, onto instances of an unlabeled dataset, backgrounds. In our case, PIDray and SIXray datasets are considered as labeled and unlabeled datasets, respectively. Moreover, we fully harness labels by avoiding false negative pairs through implementing the idea, one queue per class, in MoCo-v2 whereby negative pairs corresponding to each query are extracted from its corresponding queue within the memory bank. Our approach has outperformed random initialization by 3% to 6%, while having underperformed supervised initialization.
arxiv情報
著者 | Shervin Halat,Mohammad Rahmati,Ehsan Nazerfard |
発行日 | 2023-10-12 15:42:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google