An Early Evaluation of GPT-4V(ision)

要約

この論文では、視覚理解、言語理解、視覚パズル解決、深度、熱、ビデオ、オーディオなどの他のモダリティの理解など、GPT-4V のさまざまな能力を評価します。
GPT-4V のパフォーマンスを推定するために、656 個のテスト インスタンスを手動で構築し、GPT-4V の結果を慎重に評価します。
調査結果のハイライトは次のとおりです。(1) GPT-4V は、英語のビジュアル中心のベンチマークでは優れたパフォーマンスを示しますが、画像内の単純な中国語テキストを認識できません。
(2) GPT-4V は、性別、人種、年齢などの敏感な特性に関連する質問に答えるとき、一貫性のない拒否行動を示します。
(3) GPT-4V は、一般的な言語理解ベンチマークや視覚的常識知識評価ベンチマークを含む言語理解タスクに関して、GPT-4 (API) よりも悪い結果が得られます。
(4) 数回のプロンプトにより、視覚的理解と言語理解の両方において GPT-4V のパフォーマンスを向上させることができます。
(5) GPT-4V は、2 つの類似した画像間のニュアンスを見つけて、簡単な算数の絵のパズルを解くのに苦労します。
(6) GPT-4V は、ビデオやサーマルなど、画像と同様のモダリティのタスクで重要なパフォーマンスを示します。
私たちの実験結果は GPT-4V の能力と限界を明らかにしており、私たちの論文が GPT-4V の応用と研究への洞察を提供できることを願っています。

要約(オリジナル)

In this paper, we evaluate different abilities of GPT-4V including visual understanding, language understanding, visual puzzle solving, and understanding of other modalities such as depth, thermal, video, and audio. To estimate GPT-4V’s performance, we manually construct 656 test instances and carefully evaluate the results of GPT-4V. The highlights of our findings are as follows: (1) GPT-4V exhibits impressive performance on English visual-centric benchmarks but fails to recognize simple Chinese texts in the images; (2) GPT-4V shows inconsistent refusal behavior when answering questions related to sensitive traits such as gender, race, and age; (3) GPT-4V obtains worse results than GPT-4 (API) on language understanding tasks including general language understanding benchmarks and visual commonsense knowledge evaluation benchmarks; (4) Few-shot prompting can improve GPT-4V’s performance on both visual understanding and language understanding; (5) GPT-4V struggles to find the nuances between two similar images and solve the easy math picture puzzles; (6) GPT-4V shows non-trivial performance on the tasks of similar modalities to image, such as video and thermal. Our experimental results reveal the ability and limitations of GPT-4V and we hope our paper can provide some insights into the application and research of GPT-4V.

arxiv情報

著者 Yang Wu,Shilong Wang,Hao Yang,Tian Zheng,Hongbo Zhang,Yanyan Zhao,Bing Qin
発行日 2023-10-25 10:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク