Caption supervision enables robust learners

要約

CLIP のようなビジョン言語 (VL) モデルは、自然な分布の変化に対してロバストです。その理由の 1 つは、CLIP がキャプション監視と呼ばれる手法を使用して非構造化データを学習するためです。
モデルは、画像にリンクされたテキストをグラウンド トゥルース ラベルとして解釈します。
慎重に管理された比較研究では、標準的なクロスエントロピー損失 (クラス名のキャプションをスキャンすることによって割り当てられた画像ラベルを使用) でトレーニングされたキャプション教師付き CNN は、同じデータでトレーニングされた VL モデルよりも優れた分布ロバスト性を示すことができることを示しています。
高精度のキャプション教師ありモデルを使用した将来の実験を容易にするために、CaptionNet (https://github.com/penfever/CaptionNet/) を導入します。
Web スクレイピングされたキャプションを含む準拠サンプル。
CaptionNet での一連の実験では、損失関数の選択、データのフィルタリング、および監視戦略によって、堅牢なコンピューター ビジョンがどのように実現されるかを示します。
また、実験を再現するために必要なコードベースを VL Hub (https://github.com/penfever/vlhub/) で提供しています。

要約(オリジナル)

Vision language (VL) models like CLIP are robust to natural distribution shifts, in part because CLIP learns on unstructured data using a technique called caption supervision; the model inteprets image-linked texts as ground-truth labels. In a carefully controlled comparison study, we show that caption-supervised CNNs trained on a standard cross-entropy loss (with image labels assigned by scanning captions for class names) can exhibit greater distributional robustness than VL models trained on the same data. To facilitate future experiments with high-accuracy caption-supervised models, we introduce CaptionNet (https://github.com/penfever/CaptionNet/), which includes a class-balanced, fully supervised dataset with over 50,000 new human-labeled ImageNet-compliant samples which includes web-scraped captions. In a series of experiments on CaptionNet, we show how the choice of loss function, data filtration and supervision strategy enable robust computer vision. We also provide the codebase necessary to reproduce our experiments at VL Hub (https://github.com/penfever/vlhub/).

arxiv情報

著者 Benjamin Feuer,Ameya Joshi,Chinmay Hegde
発行日 2022-12-08 14:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.9 パーマリンク