要約
ウェブデータからの画像-テキストアライメントに依存した純粋な画像分割の学習は、データ中のノイズにより最適とは言えない性能になることがある。このノイズは、関連するテキストが画像の視覚的コンテンツと相関しないサンプルに由来する。本論文では、ノイズの多いデータからのアライメントに純粋に頼るのではなく、SimConと呼ばれる新しい損失関数を提案し、モード内の類似性を考慮して、アライメントする適切な正サンプル集合を決定する。さらに、(合成的に作成された)画像の複数のビューを学習に用い、SimCon損失を組み合わせることで、よりロバストな学習が可能となる。このバージョンの損失はMV-SimConと呼ばれる。実証実験の結果、提案する損失関数を用いることで、ゼロショット、テキスト教師あり意味分割が一貫して改善され、PASCAL VOC, PASCAL Context, MSCOCOにおいて、それぞれ$+3.0%$, $+3.3%$, $+6.9%$ で最先端技術より性能が良いことが示された。テスト時間増強により、これらの結果をさらに改善し、PASCAL VOC, PASCAL Context, MSCOCOでそれぞれ$58.7%$, $26.6%$, $33.3%%$となり、新記録を樹立しました。また、提案する損失関数を用いることで、ロバストな学習と高速な収束を実現することができました。
要約(オリジナル)
Learning to segment images purely by relying on the image-text alignment from web data can lead to sub-optimal performance due to noise in the data. The noise comes from the samples where the associated text does not correlate with the image’s visual content. Instead of purely relying on the alignment from the noisy data, this paper proposes a novel loss function termed SimCon, which accounts for intra-modal similarities to determine the appropriate set of positive samples to align. Further, using multiple views of the image (created synthetically) for training and combining the SimCon loss with it makes the training more robust. This version of the loss is termed MV-SimCon. The empirical results demonstrate that using the proposed loss function leads to consistent improvements on zero-shot, text supervised semantic segmentation and outperforms state-of-the-art by $+3.0\%$, $+3.3\%$ and $+6.9\%$ on PASCAL VOC, PASCAL Context and MSCOCO, respectively. With test time augmentations, we set a new record by improving these results further to $58.7\%$, $26.6\%$, and $33.3\%$ on PASCAL VOC, PASCAL Context, and MSCOCO, respectively. In addition, using the proposed loss function leads to robust training and faster convergence.
arxiv情報
| 著者 | Yash Patel,Yusheng Xie,Yi Zhu,Srikar Appalaraju,R. Manmatha | 
| 発行日 | 2023-02-07 12:36:35+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
