要約
最近の文献では、CNN の教師付きトレーニングから得られた特徴は、高レベルの情報をエンコードするのではなく、テクスチャを過度に強調する可能性があることが示されています。
特に自己教師あり学習では、低レベルの手がかりとしてのテクスチャは、ネットワークが高レベルの表現を学習するのを妨げるショートカットを提供する場合があります。
これらの問題に対処するために、異方性拡散に基づく従来の方法を使用して、テクスチャが抑制された画像を使用してトレーニングを強化することを提案します。
この単純な方法は、重要なエッジ情報を保持し、同時にテクスチャを抑制するのに役立ちます。
MoCoV2やジグソーなどの教師ありまたは自己教師ありの学習タスクで、8つの多様なデータセットを使用して、オブジェクト検出と画像分類に関する最先端の結果が得られることを経験的に示しています。
私たちの方法は、転移学習タスクに特に効果的であり、5 つの標準転移学習データセットでパフォーマンスの向上が観察されました。
Sketch-ImageNet データセット、DTD データセット、および顕著性マップを使用した追加の視覚分析の大幅な改善 (最大 11.49\%) は、私たちのアプローチが、より適切に伝達されるより良い表現の学習に役立つことを示唆しています。
要約(オリジナル)
Recent literature has shown that features obtained from supervised training of CNNs may over-emphasize texture rather than encoding high-level information. In self-supervised learning in particular, texture as a low-level cue may provide shortcuts that prevent the network from learning higher level representations. To address these problems we propose to use classic methods based on anisotropic diffusion to augment training using images with suppressed texture. This simple method helps retain important edge information and suppress texture at the same time. We empirically show that our method achieves state-of-the-art results on object detection and image classification with eight diverse datasets in either supervised or self-supervised learning tasks such as MoCoV2 and Jigsaw. Our method is particularly effective for transfer learning tasks and we observed improved performance on five standard transfer learning datasets. The large improvements (up to 11.49\%) on the Sketch-ImageNet dataset, DTD dataset and additional visual analyses with saliency maps suggest that our approach helps in learning better representations that better transfer.
arxiv情報
著者 | Shlok Mishra,Anshul Shah,Ankan Bansal,Janit Anjaria,Jonghyun Choi,Abhinav Shrivastava,Abhishek Sharma,David Jacobs |
発行日 | 2023-01-27 04:46:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google