Explaining CLIP’s performance disparities on data from blind/low vision users

要約

大規模なマルチモーダル モデル (LMM) は、視覚障害者または弱視 (BLV) の人々に対する自動視覚支援の新時代をもたらす可能性を秘めています。
しかし、これらのモデルは、BLV ユーザーが取得したデータに基づいて体系的に評価されていません。
私たちは、多くの支援技術を支える可能性が高い広く使用されている LMM である CLIP を経験的に評価することで、この問題に対処します。
ゼロショット分類タスクで 25 個の CLIP バリアントをテストしたところ、BLV ユーザーがキャプチャした画像の精度は、Web クロールされた画像よりも平均して 15 パーセント ポイント低いことがわかりました。
この差異は、1) 画像コンテンツに対する CLIP の敏感さから生じます (例: 障害オブジェクトを他のオブジェクトと同様に認識しない)。
2)画質(例えば、照明の変動に対して頑強ではない)。
3)テキストコンテンツ(例えば、視覚的な形容詞だけでなく触覚的な形容詞によって表されるオブジェクトを認識しない)。
LAION-400M、LAION-2B、DataComp-1B という 3 つの一般的な事前トレーニング データセットのテキスト分析をさらに詳しく調べ、障害に関するコンテンツがほとんど言及されていないことを示しています。
次に、CLIP によって支えられる 3 つのダウンストリーム モデル (OWL-ViT、CLIPSeg、DALL-E2) にパフォーマンスの格差がどのように広がるかを示す 3 つの例を示します。
一部のシナリオでは、わずか 5 枚の画像を使用した少数ショット学習により、BLV ユーザーに対する CLIP のサービス品質の格差を緩和できることがわかりました。これについては、他の考えられる緩和策と併せて説明します。

要約(オリジナル)

Large multi-modal models (LMMs) hold the potential to usher in a new era of automated visual assistance for people who are blind or low vision (BLV). Yet, these models have not been systematically evaluated on data captured by BLV users. We address this by empirically assessing CLIP, a widely-used LMM likely to underpin many assistive technologies. Testing 25 CLIP variants in a zero-shot classification task, we find that their accuracy is 15 percentage points lower on average for images captured by BLV users than web-crawled images. This disparity stems from CLIP’s sensitivities to 1) image content (e.g. not recognizing disability objects as well as other objects); 2) image quality (e.g. not being robust to lighting variation); and 3) text content (e.g. not recognizing objects described by tactile adjectives as well as visual ones). We delve deeper with a textual analysis of three common pre-training datasets: LAION-400M, LAION-2B and DataComp-1B, showing that disability content is rarely mentioned. We then provide three examples that illustrate how the performance disparities extend to three downstream models underpinned by CLIP: OWL-ViT, CLIPSeg and DALL-E2. We find that few-shot learning with as few as 5 images can mitigate CLIP’s quality-of-service disparities for BLV users in some scenarios, which we discuss alongside a set of other possible mitigations.

arxiv情報

著者 Daniela Massiceti,Camilla Longden,Agnieszka Słowik,Samuel Wills,Martin Grayson,Cecily Morrison
発行日 2024-03-25 07:51:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク