要約
機械学習とコンピューター ビジョンの最近の研究では、グラウンド トゥルース オブジェクト認識ベンチマーク データセット内にさまざまなタイプの系統的欠陥が存在することが明らかになりました。
私たちの基本的な考え方は、これらの欠陥は、画像にエンコードされた視覚情報と、それらに注釈を付けるラベルの意図されたセマンティクスとの間に存在する多対多のマッピングに根ざしているということです。
最終的な結果は、現在のアノテーション プロセスの仕様がほとんど不十分であり、そのためアノテーターの主観的な判断にあまりにも多くの自由が残されているということです。
この論文では、自然言語処理、知識表現、およびコンピューター ビジョンを統合した方法論である vTelos を提案します。その主な目的は、(暗黙的な) 意図されたアノテーション セマンティクスを明示し、主観的な選択の数と役割を最小限に抑えることです。
vTelos の重要な要素は、自然言語ラベルの意味を提供するための主な手段として WordNet 語彙意味階層を活用し、その結果、オブジェクトとそれらが表す視覚的プロパティに基づいて画像の注釈を駆動することです。
この方法は、ImageNet 階層のサブセットに存在する画像に対して検証されます。
要約(オリジナル)
Recent work in Machine Learning and Computer Vision has highlighted the presence of various types of systematic flaws inside ground truth object recognition benchmark datasets. Our basic tenet is that these flaws are rooted in the many-to-many mappings which exist between the visual information encoded in images and the intended semantics of the labels annotating them. The net consequence is that the current annotation process is largely under-specified, thus leaving too much freedom to the subjective judgment of annotators. In this paper, we propose vTelos, an integrated Natural Language Processing, Knowledge Representation, and Computer Vision methodology whose main goal is to make explicit the (otherwise implicit) intended annotation semantics, thus minimizing the number and role of subjective choices. A key element of vTelos is the exploitation of the WordNet lexico-semantic hierarchy as the main means for providing the meaning of natural language labels and, as a consequence, for driving the annotation of images based on the objects and the visual properties they depict. The methodology is validated on images populating a subset of the ImageNet hierarchy.
arxiv情報
著者 | Fausto Giunchiglia,Mayukh Bagchi,Xiaolei Diao |
発行日 | 2023-07-26 11:38:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google