Teach CLIP to Develop a Number Sense for Ordinal Regression

要約

順序回帰は、特定のタスクに関してカスタマイズされ、よく訓練されたモデルを使用するコンピューター ビジョンの分野における基本的な問題です。
事前トレーニングされた視覚言語モデル (VLM) は、さまざまな視覚タスクで優れたパフォーマンスを示していますが、順序回帰の可能性についてはあまり研究されていません。
この研究では、最初に順序回帰に対する CLIP の可能性を調査し、そこからモデルがさまざまな順序回帰タスクやシナリオに一般化できると期待しています。
残念ながら、現在の VLM には数の感覚などの構成概念のカプセル化に関する十分に文書化された制限があるため、バニラ CLIP はこのタスクに失敗します。
VLM の定量的な理解を向上させるために、NumCLIP と呼ばれるシンプルかつ効果的な方法を提案します。
正確な画像と数値固有のテキストのマッチング問題を大まかな分類段階と詳細な予測段階に分解します。
CLIP で利用可能な事前トレーニング済みの位置合わせをより効果的に活用するために、共通言語の概念を使用して各数値ビンを離散化および表現します。
順序回帰の固有の連続特性を考慮するために、CLIP の特徴空間でセマンティックと順序の両方の整合性を維持するように特別に設計された、新しいきめの細かいクロスモーダル ランキング ベースの正則化損失を提案します。
3 つの一般順序回帰タスクに関する実験結果は、NumCLIP の有効性を示しており、過去の画像年代測定タスクと画像の美しさ評価タスクでそれぞれ 10% と 3.83% の精度が向上しました。
コードは https://github.com/xmed-lab/NumCLIP で公開されています。

要約(オリジナル)

Ordinal regression is a fundamental problem within the field of computer vision, with customised well-trained models on specific tasks. While pre-trained vision-language models (VLMs) have exhibited impressive performance on various vision tasks, their potential for ordinal regression has received less exploration. In this study, we first investigate CLIP’s potential for ordinal regression, from which we expect the model could generalise to different ordinal regression tasks and scenarios. Unfortunately, vanilla CLIP fails on this task, since current VLMs have a well-documented limitation of encapsulating compositional concepts such as number sense. We propose a simple yet effective method called NumCLIP to improve the quantitative understanding of VLMs. We disassemble the exact image to number-specific text matching problem into coarse classification and fine prediction stages. We discretize and phrase each numerical bin with common language concept to better leverage the available pre-trained alignment in CLIP. To consider the inherent continuous property of ordinal regression, we propose a novel fine-grained cross-modal ranking-based regularisation loss specifically designed to keep both semantic and ordinal alignment in CLIP’s feature space. Experimental results on three general ordinal regression tasks demonstrate the effectiveness of NumCLIP, with 10% and 3.83% accuracy improvement on historical image dating and image aesthetics assessment task, respectively. Code is publicly available at https://github.com/xmed-lab/NumCLIP.

arxiv情報

著者 Yao Du,Qiang Zhai,Weihang Dai,Xiaomeng Li
発行日 2024-08-07 06:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク