Don’t Judge Before You CLIP: A Unified Approach for Perceptual Tasks

要約

視覚的知覚タスクは、画像の人間の判断を予測することを目的としています(たとえば、画像によって呼び出された感情、画像品質評価)。
オブジェクト/シーン認識などの客観的なタスクとは異なり、知覚タスクは主観的な人間の評価に依存しており、データラベルの困難を困難にします。
このような人間が解釈されたデータの希少性は、小さなデータセットをもたらし、一般化が不十分になります。
通常、専門モデルは、その独自の特性と独自のトレーニングデータセットに合わせて調整された知覚タスクごとに設計されています。
以前のようにクリップを活用する複数の異なる知覚タスクを解決するための統一されたアーキテクチャフレームワークを提案します。
私たちのアプローチは、クリップが人間の判断とよく相関することを示す最近の認知的発見に基づいています。
クリップは画像とテキストを調整するために明示的に訓練されましたが、暗黙的に人間の傾向も学びました。
これは、クリップのトレーニングデータに人間が作成した画像キャプションを含めることに起因します。これには、事実上の画像の説明だけでなく、必然的に人間の感情や感情も含まれています。
これにより、Clipは知覚タスクに対して特に強力な事前になります。
したがって、さまざまな知覚タスクを解決するのに最小限のクリップの適応で十分であることをお勧めします。
当社のシンプルな統一フレームワークは、タスク固有のアーキテクチャの変更を必要とせずに、各タスクへのクリップを微調整するための軽量化を採用しています。
3つのタスクでアプローチを評価します:(i)画像の記憶性予測、(ii)参照なしの画質評価、および(iii)視覚感情分析。
私たちのモデルは、3つのタスクすべてで最先端の結果を達成し、異なるデータセット全体で改善された一般化を実証します。

要約(オリジナル)

Visual perceptual tasks aim to predict human judgment of images (e.g., emotions invoked by images, image quality assessment). Unlike objective tasks such as object/scene recognition, perceptual tasks rely on subjective human assessments, making its data-labeling difficult. The scarcity of such human-annotated data results in small datasets leading to poor generalization. Typically, specialized models were designed for each perceptual task, tailored to its unique characteristics and its own training dataset. We propose a unified architectural framework for solving multiple different perceptual tasks leveraging CLIP as a prior. Our approach is based on recent cognitive findings which indicate that CLIP correlates well with human judgment. While CLIP was explicitly trained to align images and text, it implicitly also learned human inclinations. We attribute this to the inclusion of human-written image captions in CLIP’s training data, which contain not only factual image descriptions, but inevitably also human sentiments and emotions. This makes CLIP a particularly strong prior for perceptual tasks. Accordingly, we suggest that minimal adaptation of CLIP suffices for solving a variety of perceptual tasks. Our simple unified framework employs a lightweight adaptation to fine-tune CLIP to each task, without requiring any task-specific architectural changes. We evaluate our approach on three tasks: (i) Image Memorability Prediction, (ii) No-reference Image Quality Assessment, and (iii) Visual Emotion Analysis. Our model achieves state-of-the-art results on all three tasks, while demonstrating improved generalization across different datasets.

arxiv情報

著者 Amit Zalcher,Navve Wasserman,Roman Beliy,Oliver Heinimann,Michal Irani
発行日 2025-03-17 15:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク