HL Dataset: Grounding High-Level Linguistic Concepts in Vision

要約

現在のキャプション データセットは、オブジェクト中心のキャプションに焦点を当て、画像内の目に見えるオブジェクトを記述し、多くの場合、(人間にとって) 明白なことを記述します。
「公園で食事をする人々」。
これらのデータセットは、視覚および言語モデルが視覚コンテンツを認識する能力を評価するのに役立ちますが、些細な抽象的な概念を表現することには欠けています。
「ピクニックをする人々」。
このような概念は、人間の個人的な経験によって認可され、常識的な仮定を形成するのに役立ちます。
ハイレベル データセットを提示します。
COCO データセットの 14997 枚の画像を、シーン、アクション、理論的根拠の 3 つの軸に沿って収集された 134973 個の人間が注釈を付けた (高レベルの) 抽象的なキャプションで拡張したデータセット。
そのようなデータセットを記述して公開し、それを使用してモデルの抽象概念のマルチモーダルグラウンディングを評価し、モデルの視覚言語表現を強化する方法を示します。
さらに、高レベルおよび低レベルの概念の相互作用を含む、このデータセットによって可能になる潜在的なタスクについて説明します。

要約(オリジナル)

Current captioning datasets, focus on object-centric captions, describing the visible objects in the image, often ending up stating the obvious (for humans), e.g. ‘people eating food in a park’. Although these datasets are useful to evaluate the ability of Vision & Language models to recognize the visual content, they lack in expressing trivial abstract concepts, e.g. ‘people having a picnic’. Such concepts are licensed by human’s personal experience and contribute to forming common sense assumptions. We present the High-Level Dataset; a dataset extending 14997 images of the COCO dataset with 134973 human-annotated (high-level) abstract captions collected along three axes: scenes, actions and rationales. We describe and release such dataset and we show how it can be used to assess models’ multimodal grounding of abstract concepts and enrich models’ visio-lingusitic representations. Moreover, we describe potential tasks enabled by this dataset involving high- and low-level concepts interactions.

arxiv情報

著者 Michele Cafagna,Kees van Deemter,Albert Gatt
発行日 2023-02-23 17:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク