VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks

要約

異種入力 (画像、テキスト、音声など) から推論を導き出すことは、人間が日常のタスクを実行するための重要なスキルです。
同様の能力は、高度な人工知能 (AI) システムの開発にも望まれます。
最先端のモデルは、さまざまなコンピューター ビジョンと NLP タスクを個別に実行すると、人間レベルのパフォーマンスとのギャップを急速に縮めていますが、視覚的モダリティとテキスト モダリティを超えた共同推論が必要なタスクを解決するのに苦労しています。
自然言語理解のためのマルチタスクベンチマークである GLUE (Wang et. al., 2018) からインスピレーションを得て、この論文では VL-GLUE を提案します。
VL-GLUE は、7 つの異なるタスクにわたる 100,000 を超えるサンプルで構成されており、その中核には視覚言語的推論が必要です。
さらに、当社のベンチマークは、さまざまな画像タイプ (合成的にレンダリングされた図、日常の風景からチャートや複雑な図に至るまで) で構成され、さまざまな分野固有のテキスト (料理、政治、スポーツから高校に至るまで) が含まれています。
カリキュラム)、現実世界における多面的な理解の必要性を実証しています。
我々は、このベンチマークが既存の大規模視覚言語モデルにとって非常に困難であることを示し、堅牢な視覚言語推論能力を備えたシステムの開発を奨励します。

要約(オリジナル)

Deriving inference from heterogeneous inputs (such as images, text, and audio) is an important skill for humans to perform day-to-day tasks. A similar ability is desirable for the development of advanced Artificial Intelligence (AI) systems. While state-of-the-art models are rapidly closing the gap with human-level performance on diverse computer vision and NLP tasks separately, they struggle to solve tasks that require joint reasoning over visual and textual modalities. Inspired by GLUE (Wang et. al., 2018)- a multitask benchmark for natural language understanding, we propose VL-GLUE in this paper. VL-GLUE consists of over 100k samples spanned across seven different tasks, which at their core require visuo-linguistic reasoning. Moreover, our benchmark comprises of diverse image types (from synthetically rendered figures, and day-to-day scenes to charts and complex diagrams) and includes a broad variety of domain-specific text (from cooking, politics, and sports to high-school curricula), demonstrating the need for multi-modal understanding in the real-world. We show that this benchmark is quite challenging for existing large-scale vision-language models and encourage development of systems that possess robust visuo-linguistic reasoning capabilities.

arxiv情報

著者 Shailaja Keyur Sampat,Mutsumi Nakamura,Shankar Kailas,Kartik Aggarwal,Mandy Zhou,Yezhou Yang,Chitta Baral
発行日 2024-10-17 15:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク