要約
現在のキャプション データセットは、画像内の目に見えるオブジェクトを説明するオブジェクト中心のキャプションに焦点を当てています。
「公園で食べ物を食べる人々」。
これらのデータセットは、視覚コンテンツを認識して記述する視覚および言語モデルの能力を評価するのに役立ちますが、人間が簡単かつ自然に生成できる、より高レベルのキャプションを伴う、モデルのテストや微調整を含む制御された実験はサポートしていません。
。
たとえば、人々は、描写するシーンの種類 (「休暇リゾートにいる人々」) や実行するアクション (「ピクニックをする人々」) に基づいて画像を説明することがよくあります。
このような説明は、個人的な経験と常識的な仮定に基づいています。
私たちは、COCO データセットの 14,997 枚の画像を拡張したデータセットであるハイレベル データセットを、シーン、アクション、理論的根拠の 3 つの軸に沿って収集された 134,973 個の人間による注釈付き (ハイレベル) キャプションの新しいセットと連携させて提示します。
3 つの軸のそれぞれを組み合わせることで、独立した読者セットから収集した信頼度スコアと、合成的に生成された一連の説明キャプションを使用して、このデータセットをさらに拡張します。
私たちはこのデータセットを説明し、広範囲に分析します。
また、高レベル キャプション タスクのベースライン結果も示します。
要約(オリジナル)
Current captioning datasets focus on object-centric captions, describing the visible objects in the image, e.g. ‘people eating food in a park’. Although these datasets are useful to evaluate the ability of Vision & Language models to recognize and describe visual content, they do not support controlled experiments involving model testing or fine-tuning, with more high-level captions, which humans find easy and natural to produce. For example, people often describe images based on the type of scene they depict (‘people at a holiday resort’) and the actions they perform (‘people having a picnic’). Such descriptions draw on personal experience and commonsense assumptions. We present the High-Level Dataset a dataset extending 14997 images from the COCO dataset, aligned with a new set of 134,973 human-annotated (high-level) captions collected along three axes: scenes, actions, and rationales. We further extend this dataset with confidence scores collected from an independent set of readers, as well as a set of narrative captions generated synthetically, by combining each of the three axes. We describe this dataset and analyse it extensively. We also present baseline results for the High-Level Captioning task.
arxiv情報
著者 | Michele Cafagna,Kees van Deemter,Albert Gatt |
発行日 | 2023-09-25 07:37:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google