要約
人間の知覚は、意思決定と創造的思考の両方のために、画像間の類似性を日常的に評価しています。
しかし、根底にある認知プロセスはまだ十分に理解されていないため、コンピュータービジョンシステムで模倣することは困難です。
ディープアーキテクチャを使用した最先端のアプローチは、多くの場合、画像分類タスクで学習された特徴ベクトルとして記述された画像の比較に基づいています。
結果として、そのような機能は、意味的に関連する画像を比較するのに強力ですが、視覚的に類似しているが意味的に関連のない画像を比較するのには実際には効率的ではありません。
心理認知表現への神経機能の適応に関する以前の研究に触発されて、ここでは、類推が重要な場合に視覚画像の類似性を学習する特定のタスクに焦点を当てます。
異なるスケールとコンテンツデータセット(ImageNet-21k、ImageNet-1K、VGGFace2など)で事前トレーニングされた、さまざまな教師あり、半教師あり、および自己教師ありネットワークを比較して、ビジュアルを近似するのに最適なモデルを結論付けることを提案します。
皮質を学習し、メトリック学習フレームワークを介して霊長類IT皮質の近似に対応する適応関数のみを学習します。
Totally Likes Like画像データセットで実施した実験では、最良のモデル@ 1の検索スコアを2.25倍に増やすことで、この方法の関心を強調しています。
この研究成果は、最近ICIP2021国際会議での発表が承認されました[1]。
この新しい記事では、他のデータセットで事前にトレーニングされた新しい特徴抽出器を使用して比較することにより、この以前の作業を拡張します。
要約(オリジナル)
Human perception is routinely assessing the similarity between images, both for decision making and creative thinking. But the underlying cognitive process is not really well understood yet, hence difficult to be mimicked by computer vision systems. State-of-the-art approaches using deep architectures are often based on the comparison of images described as feature vectors learned for image categorization task. As a consequence, such features are powerful to compare semantically related images but not really efficient to compare images visually similar but semantically unrelated. Inspired by previous works on neural features adaptation to psycho-cognitive representations, we focus here on the specific task of learning visual image similarities when analogy matters. We propose to compare different supervised, semi-supervised and self-supervised networks, pre-trained on distinct scales and contents datasets (such as ImageNet-21k, ImageNet-1K or VGGFace2) to conclude which model may be the best to approximate the visual cortex and learn only an adaptation function corresponding to the approximation of the the primate IT cortex through the metric learning framework. Our experiments conducted on the Totally Looks Like image dataset highlight the interest of our method, by increasing the retrieval scores of the best model @1 by 2.25x. This research work was recently accepted for publication at the ICIP 2021 international conference [1]. In this new article, we expand on this previous work by using and comparing new pre-trained feature extractors on other datasets.
arxiv情報
著者 | Olivier Risser-Maroix,Amine Marzouki,Hala Djeghim,Camille Kurtz,Nicolas Lomenie |
発行日 | 2022-06-03 07:15:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google