要約
昨年だけでも、視覚言語モデルの構成的な理解を測定するための新しいベンチマークが急増し、機械学習エコシステムに浸透しました。
これらのベンチマークは、画像が与えられた場合、一連の構成的なディストラクターの中から関連するキャプションを識別するモデルの能力を調査します。
驚くべきことに、これらすべてのベンチマークには重大なバイアスがあり、ハッキング可能になっていることがわかりました。
このハッキング可能性は非常に恐ろしいため、画像にアクセスできない盲目のモデルは、最先端の視覚言語モデルよりも優れたパフォーマンスを発揮します。
この蔓延する脆弱性を解決するために、ビジョン言語の構成性評価の新しいベンチマークである SugarCrepe を導入します。
以前のベンチマークで使用されたルールベースのテンプレートの代わりに、大規模な言語モデルを採用して、流暢で意味のあるハードネガを生成し、敵対的洗練メカニズムを利用してバイアスを最大限に削減します。
私たちは最先端のモデルと最近提案された構成性を誘導する戦略を再評価し、その改善が大幅に過大評価されていることがわかり、この重要な方向でさらなる革新が必要であることを示唆しています。
SugarCrepe と評価用コードを https://github.com/RAIVNLab/sugar-crepe でリリースします。
要約(オリジナル)
In the last year alone, a surge of new benchmarks to measure compositional understanding of vision-language models have permeated the machine learning ecosystem. Given an image, these benchmarks probe a model’s ability to identify its associated caption amongst a set of compositional distractors. Surprisingly, we find significant biases in all these benchmarks rendering them hackable. This hackability is so dire that blind models with no access to the image outperform state-of-the-art vision-language models. To remedy this rampant vulnerability, we introduce SugarCrepe, a new benchmark for vision-language compositionality evaluation. We employ large language models, instead of rule-based templates used in previous benchmarks, to generate fluent and sensical hard negatives, and utilize an adversarial refinement mechanism to maximally reduce biases. We re-evaluate state-of-the-art models and recently proposed compositionality inducing strategies, and find that their improvements were hugely overestimated, suggesting that more innovation is needed in this important direction. We release SugarCrepe and the code for evaluation at: https://github.com/RAIVNLab/sugar-crepe.
arxiv情報
著者 | Cheng-Yu Hsieh,Jieyu Zhang,Zixian Ma,Aniruddha Kembhavi,Ranjay Krishna |
発行日 | 2023-06-26 11:35:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google