Does CLIP perceive art the same way we do?

要約

クリップは、関節の埋め込みを介して画像やテキストを接続できる強力なマルチモーダルモデルとして浮上していますが、人間がするように、特にアートワークを解釈するときにどのように「見える」のでしょうか?
このホワイトペーパーでは、人間が作成した画像とAIに生成された画像の両方を含む、絵画から高レベルのセマンティックおよび文体情報を抽出するClipの能力を調査します。
コンテンツ、シーンの理解、芸術スタイル、歴史的期間、視覚的変形またはアーティファクトの存在など、複数の次元にわたってその認識を評価します。
ターゲットを絞った調査タスクを設計し、クリップの応答を人間の注釈と専門家のベンチマークに比較することにより、人間の知覚的および文脈的理解との整合性を調査します。
私たちの調査結果は、特に審美的な手がかりと芸術的意図に関連して、クリップの視覚表現の強みと制限の両方を明らかにしています。
さらに、スタイル転送やプロンプトベースの画像合成など、生成プロセス中のガイダンスメカニズムとしてCLIPを使用するためのこれらの洞察の意味について説明します。
私たちの仕事は、特にニュアンスと主観性が中心的な役割を果たす創造的なドメインに適用される場合、マルチモーダルシステムでより深い解釈可能性の必要性を強調しています。

要約(オリジナル)

CLIP has emerged as a powerful multimodal model capable of connecting images and text through joint embeddings, but to what extent does it ‘see’ the same way humans do – especially when interpreting artworks? In this paper, we investigate CLIP’s ability to extract high-level semantic and stylistic information from paintings, including both human-created and AI-generated imagery. We evaluate its perception across multiple dimensions: content, scene understanding, artistic style, historical period, and the presence of visual deformations or artifacts. By designing targeted probing tasks and comparing CLIP’s responses to human annotations and expert benchmarks, we explore its alignment with human perceptual and contextual understanding. Our findings reveal both strengths and limitations in CLIP’s visual representations, particularly in relation to aesthetic cues and artistic intent. We further discuss the implications of these insights for using CLIP as a guidance mechanism during generative processes, such as style transfer or prompt-based image synthesis. Our work highlights the need for deeper interpretability in multimodal systems, especially when applied to creative domains where nuance and subjectivity play a central role.

arxiv情報

著者 Andrea Asperti,Leonardo Dessì,Maria Chiara Tonetti,Nico Wu
発行日 2025-05-08 13:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T45, 68U10, cs.CV, cs.MM, I.2.10 パーマリンク