Grounded Intuition of GPT-Vision’s Abilities with Scientific Images

要約

GPT-Visionは様々な視覚言語タスクで私たちを感心させたが、その能力と限界についてほとんどわかっていないという、おなじみの新たな課題を伴っている。我々の研究では、この新しいモデルの「根拠のある直感」を開発するために、すでに多くの人が本能的に試みてきたプロセスを形式化する。最近のベンチマークから事例主導の質的評価を支持する動きに触発され、自然言語処理における質的評価のための厳密なフレームワークを確立するために、社会科学と人間とコンピュータの相互作用におけるグラウンデッド・セオリーと主題分析を利用する。GPT-Visionは、プロンプト、画像内の反実仮想テキスト、相対的な空間関係に特に敏感であることを発見した。私たちの手法と分析は、研究者が新しいモデルに対する自分自身の根拠ある直感を高めるのを助けると同時に、情報をよりアクセスしやすくするためにGPT-Visionをどのように適用できるかを明らかにすることを目的としている。

要約(オリジナル)

GPT-Vision has impressed us on a range of vision-language tasks, but it comes with the familiar new challenge: we have little idea of its capabilities and limitations. In our study, we formalize a process that many have instinctively been trying already to develop ‘grounded intuition’ of this new model. Inspired by the recent movement away from benchmarking in favor of example-driven qualitative evaluation, we draw upon grounded theory and thematic analysis in social science and human-computer interaction to establish a rigorous framework for qualitative evaluation in natural language processing. We use our technique to examine alt text generation for scientific figures, finding that GPT-Vision is particularly sensitive to prompting, counterfactual text in images, and relative spatial relationships. Our method and analysis aim to help researchers ramp up their own grounded intuitions of new models while exposing how GPT-Vision can be applied to make information more accessible.

arxiv情報

著者 Alyssa Hwang,Andrew Head,Chris Callison-Burch
発行日 2023-11-03 17:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク