Contrastive Learning for Image Complexity Representation

要約

画像の複雑さを定量化して評価することは、さまざまなコンピューター ビジョン タスクのパフォーマンスを向上させるのに役立ちます。
教師あり学習では、適切に注釈が付けられたデータセットから画像の複雑さの特徴を効果的に学習できます。
ただし、このようなデータセットを作成するには、手動によるアノテーションのコストが高くつきます。
モデルはそこから人間の主観的なバイアスを学習する可能性があります。
この作業では、MoCo v2 フレームワークを導入します。
画像の複雑性を表現するために、CLIC (Contrastive Learning for Image Complexity) と呼ばれる対照学習を利用します。
私たちは、画像の異なる局所領域間に複雑さの違いがあることを発見し、マルチスケールの局所クロップから構成されるポジティブ サンプルを生成できるランダム クロップ アンド ミックス (RCM) を提案します。
RCM は、追加のデータを導入することなく、トレイン セットを拡張してデータの多様性を高めることもできます。
私たちは CLIC を使用して広範な実験を行い、教師なし手法と教師あり手法の両方と比較しました。
結果は、CLIC のパフォーマンスが最先端の教師あり手法のパフォーマンスに匹敵することを示しています。
さらに、CLIC をコンピュータ ビジョン タスクに適用してパフォーマンスを効果的に向上させるパイプラインを確立します。

要約(オリジナル)

Quantifying and evaluating image complexity can be instrumental in enhancing the performance of various computer vision tasks. Supervised learning can effectively learn image complexity features from well-annotated datasets. However, creating such datasets requires expensive manual annotation costs. The models may learn human subjective biases from it. In this work, we introduce the MoCo v2 framework. We utilize contrastive learning to represent image complexity, named CLIC (Contrastive Learning for Image Complexity). We find that there are complexity differences between different local regions of an image, and propose Random Crop and Mix (RCM), which can produce positive samples consisting of multi-scale local crops. RCM can also expand the train set and increase data diversity without introducing additional data. We conduct extensive experiments with CLIC, comparing it with both unsupervised and supervised methods. The results demonstrate that the performance of CLIC is comparable to that of state-of-the-art supervised methods. In addition, we establish the pipelines that can apply CLIC to computer vision tasks to effectively improve their performance.

arxiv情報

著者 Shipeng Liu,Liang Zhao,Dengfeng Chen,Zhanping Song
発行日 2024-08-06 14:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク