要約
現在の視覚ベンチマークでは、人間がほぼ完璧な性能を発揮できるタスクが主に扱われている。しかし、人間は100%確実に分類できない視覚データを提示されることが多く、標準的なビジョンベンチマークで学習したモデルをこのデータで評価すると、低い性能になる。この問題を解決するために、我々は曖昧な画像のデータセットを作成する手順を紹介し、それを用いて動画から抽出したノイズの多い画像のコレクションであるSQUID-E(Squidy)を作成する。すべての画像は基底真理値でアノテーションされ、テストセットは人間の不確実性判断でアノテーションされる。我々はこのデータセットを用いて、視覚タスクにおける人間の不確実性を特徴付け、既存の視覚イベント分類モデルを評価する。実験結果は、既存の視覚モデルが曖昧な画像に対して意味のある出力を提供するのに十分でないこと、また、このような性質のデータセットは、モデルの訓練とモデルの較正の直接評価を通じて、そのようなモデルを評価・改善するのに利用できることを示唆するものであった。これらの知見は、大規模な曖昧データセットの作成と、ノイズの多い視覚データに焦点を当てたさらなる研究の動機付けとなるものである。
要約(オリジナル)
Contemporary vision benchmarks predominantly consider tasks on which humans can achieve near-perfect performance. However, humans are frequently presented with visual data that they cannot classify with 100% certainty, and models trained on standard vision benchmarks achieve low performance when evaluated on this data. To address this issue, we introduce a procedure for creating datasets of ambiguous images and use it to produce SQUID-E (‘Squidy’), a collection of noisy images extracted from videos. All images are annotated with ground truth values and a test set is annotated with human uncertainty judgments. We use this dataset to characterize human uncertainty in vision tasks and evaluate existing visual event classification models. Experimental results suggest that existing vision models are not sufficiently equipped to provide meaningful outputs for ambiguous images and that datasets of this nature can be used to assess and improve such models through model training and direct evaluation of model calibration. These findings motivate large-scale ambiguous dataset creation and further research focusing on noisy visual data.
arxiv情報
著者 | Kate Sanders,Reno Kriz,Anqi Liu,Benjamin Van Durme |
発行日 | 2022-10-06 17:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |