要約
言語モデルは、迅速な最適化から自動評価まで、さまざまな目的で大規模な AI システムのコンポーネントとして組み込まれることが増えています。
この研究では、テキストと画像の一貫性を測定するために最近一般的に使用されている 4 つの方法 (CLIPScore、TIFA、VPEval、DSG) の構造の妥当性を分析します。これらの方法は、コンポーネントとして言語モデルや VQA モデルに依存しています。
我々は、テキストと画像の一貫性メトリクスの構造妥当性を、テキストと画像の一貫性メトリクスが持つべき一連の要望として定義しますが、テストされたメトリクスがそれらすべてを満たすものはないことがわかりました。
指標には言語や視覚的特性に対する十分な感度が欠けていることがわかりました。
次に、TIFA、VPEval、DSG が CLIPScore を超えて新しい情報を提供しているだけでなく、相互に高度に相関していることもわかりました。
また、テキストと画像の一貫性指標のさまざまな側面を除去したところ、すべてのモデル コンポーネントが厳密に必要なわけではないことがわかりました。これは、視覚情報に対する感度が不十分であることの兆候でもあります。
最後に、3 つの VQA ベースのメトリクスはすべて、モデルのパフォーマンスの定量的評価としての適性を疑問視する、よく知られたテキスト ショートカット (QA のイエス バイアスなど) に依存している可能性が高いことを示します。
要約(オリジナル)
Language models are increasingly being incorporated as components in larger AI systems for various purposes, from prompt optimization to automatic evaluation. In this work, we analyze the construct validity of four recent, commonly used methods for measuring text-to-image consistency – CLIPScore, TIFA, VPEval, and DSG – which rely on language models and/or VQA models as components. We define construct validity for text-image consistency metrics as a set of desiderata that text-image consistency metrics should have, and find that no tested metric satisfies all of them. We find that metrics lack sufficient sensitivity to language and visual properties. Next, we find that TIFA, VPEval and DSG contribute novel information above and beyond CLIPScore, but also that they correlate highly with each other. We also ablate different aspects of the text-image consistency metrics and find that not all model components are strictly necessary, also a symptom of insufficient sensitivity to visual information. Finally, we show that all three VQA-based metrics likely rely on familiar text shortcuts (such as yes-bias in QA) that call their aptitude as quantitative evaluations of model performance into question.
arxiv情報
著者 | Candace Ross,Melissa Hall,Adriana Romero Soriano,Adina Williams |
発行日 | 2024-12-18 16:09:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google