Assessing Graphical Perception of Image Embedding Models using Channel Effectiveness

要約

ビジョン モデルの最近の進歩により、グラフのキャプションや質問への回答など、複雑なグラフ理解タスクを処理する能力が大幅に向上しました。
ただし、これらのモデルがチャートをどのように処理するかを評価するのは依然として困難です。
既存のベンチマークは、モデルが画像埋め込みを抽出する方法など、基礎となるメカニズムを評価せずに、モデルのパフォーマンスを大まかに評価するだけです。
これにより、基本的なグラフィック コンポーネントを認識するモデルの能力についての理解が制限されます。
これに対処するために、画像埋め込みモデルのグラフィカルな認識を評価するための新しい評価フレームワークを導入します。
チャートを理解するために、チャネルの有効性の 2 つの主要な側面、つまりさまざまな視覚チャネルの精度と識別性を調べます。
チャネルの精度は、知覚される大きさが刺激のサイズとどの程度一致しているかを測定する埋め込みの線形性を通じて評価されます。
識別可能性は、埋め込み間の距離に基づいて評価され、埋め込みの区別性を示します。
CLIP モデルを使った実験では、CLIP モデルが人間とは異なる方法でチャネル精度を認識し、長さ、傾き、曲率などのチャネルにおいて独自の識別能力を示すことがわかりました。
私たちは、この研究を信頼性の高いビジュアル エンコーダのより広範なベンチマークに発展させ、将来のアプリケーションで正確なチャートの理解と人間のような知覚のためのモデルを強化することを目指しています。

要約(オリジナル)

Recent advancements in vision models have greatly improved their ability to handle complex chart understanding tasks, like chart captioning and question answering. However, it remains challenging to assess how these models process charts. Existing benchmarks only roughly evaluate model performance without evaluating the underlying mechanisms, such as how models extract image embeddings. This limits our understanding of the model’s ability to perceive fundamental graphical components. To address this, we introduce a novel evaluation framework to assess the graphical perception of image embedding models. For chart comprehension, we examine two main aspects of channel effectiveness: accuracy and discriminability of various visual channels. Channel accuracy is assessed through the linearity of embeddings, measuring how well the perceived magnitude aligns with the size of the stimulus. Discriminability is evaluated based on the distances between embeddings, indicating their distinctness. Our experiments with the CLIP model show that it perceives channel accuracy differently from humans and shows unique discriminability in channels like length, tilt, and curvature. We aim to develop this work into a broader benchmark for reliable visual encoders, enhancing models for precise chart comprehension and human-like perception in future applications.

arxiv情報

著者 Soohyun Lee,Minsuk Chang,Seokhyeon Park,Jinwook Seo
発行日 2024-07-30 14:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG パーマリンク