要約
事前トレーニングされた大規模なビジョン言語モデルは、その優れたパフォーマンスにより近年大きな関心を集めています。
これらのモデルを多様な観点から評価する多大な努力にもかかわらず、最先端の GPT-4V モデルにおける視覚文化認識の程度は未解明のままです。
このギャップに取り組むために、文化的側面に焦点を当てて視覚的理解におけるその機能と限界を調査することを目的として、MaRVL ベンチマーク データセットを使用して GPT-4V を広範囲に調査しました。
具体的には、きめの細かい視覚文化評価を系統的に掘り下げるために、キャプション分類、ペアワイズキャプション、および文化タグ選択という 3 つの視覚関連タスクを導入しました。
実験結果によると、GPT-4V は文化的概念の識別には優れていますが、タミル語やスワヒリ語などのリソースが少ない言語では依然としてパフォーマンスが低いことが示されています。
特に、人間による評価を通じて、GPT-4V は元の MaRVL 人間による注釈よりも画像キャプション タスクにおいて文化的に関連性が高いことが証明されており、将来の視覚文化ベンチマーク構築のための有望なソリューションを示唆しています。
要約(オリジナル)
Pretrained large Vision-Language models have drawn considerable interest in recent years due to their remarkable performance. Despite considerable efforts to assess these models from diverse perspectives, the extent of visual cultural awareness in the state-of-the-art GPT-4V model remains unexplored. To tackle this gap, we extensively probed GPT-4V using the MaRVL benchmark dataset, aiming to investigate its capabilities and limitations in visual understanding with a focus on cultural aspects. Specifically, we introduced three visual related tasks, i.e. caption classification, pairwise captioning, and culture tag selection, to systematically delve into fine-grained visual cultural evaluation. Experimental results indicate that GPT-4V excels at identifying cultural concepts but still exhibits weaker performance in low-resource languages, such as Tamil and Swahili. Notably, through human evaluation, GPT-4V proves to be more culturally relevant in image captioning tasks than the original MaRVL human annotations, suggesting a promising solution for future visual cultural benchmark construction.
arxiv情報
著者 | Yong Cao,Wenyan Li,Jiaang Li,Yifei Yuan,Antonia Karamolegkou,Daniel Hershcovich |
発行日 | 2024-02-15 10:39:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google