CLIP Brings Better Features to Visual Aesthetics Learners

要約

さまざまな下流タスクに対する事前トレーニング アプローチの成功により、コンピューター ビジョンの分野が活性化しました。
画像美学評価 (IAA) は、主観的で高価なラベル付け手順のため、このような方法の理想的な適用シナリオの 1 つです。
この研究では、統合された柔軟な 2 段階 \textbf{C}LIP ベースの \textbf{S}emi 教師付き \textbf{K}nowledge \textbf{D} 蒸留パラダイム、すなわち \textbf{\textit{ が提案されています。
CSKD}}。
具体的には、まずマルチソースのラベルなしデータセットを統合して活用し、特徴の位置合わせ損失を介して、特定のビジュアル エンコーダーと既製の CLIP 画像エンコーダーの間で豊富な特徴を位置合わせします。
特に、特定のビジュアル エンコーダはサイズや構造によって制限されず、十分にトレーニングすれば、生徒と教師の両方にとってより優れた視覚的美的学習者としてシームレスに機能します。
第 2 フェーズでは、ラベルなしのデータが半教師あり IAA 学習にも利用され、レイテンシの影響を受けやすい運用シナリオに適用された場合にスチューデント モデルのパフォーマンスがさらに向上します。
特徴の位置合わせの前後で注意距離とエントロピーを分析することにより、特徴の崩壊の問題が軽減されることに気づき、CLIP 画像エンコーダーに直接基づいてトレーニングする代わりに特徴の位置合わせの必要性を示します。
広範な実験により、広く使用されている複数の IAA ベンチマークで最先端のパフォーマンスを達成する CSKD の優位性が示されています。

要約(オリジナル)

The success of pre-training approaches on a variety of downstream tasks has revitalized the field of computer vision. Image aesthetics assessment (IAA) is one of the ideal application scenarios for such methods due to subjective and expensive labeling procedure. In this work, an unified and flexible two-phase \textbf{C}LIP-based \textbf{S}emi-supervised \textbf{K}nowledge \textbf{D}istillation paradigm is proposed, namely \textbf{\textit{CSKD}}. Specifically, we first integrate and leverage a multi-source unlabeled dataset to align rich features between a given visual encoder and an off-the-shelf CLIP image encoder via feature alignment loss. Notably, the given visual encoder is not limited by size or structure and, once well-trained, it can seamlessly serve as a better visual aesthetic learner for both student and teacher. In the second phase, the unlabeled data is also utilized in semi-supervised IAA learning to further boost student model performance when applied in latency-sensitive production scenarios. By analyzing the attention distance and entropy before and after feature alignment, we notice an alleviation of feature collapse issue, which in turn showcase the necessity of feature alignment instead of training directly based on CLIP image encoder. Extensive experiments indicate the superiority of CSKD, which achieves state-of-the-art performance on multiple widely used IAA benchmarks.

arxiv情報

著者 Liwu Xu,Jinjin Xu,Yuzhe Yang,Yijie Huang,Yanchun Xie,Yaqian Li
発行日 2023-07-28 16:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク