Aligning Visual and Lexical Semantics

要約

コンピューター ビジョン (CV) システムに関連する 2 種類のセマンティクス、つまり視覚的セマンティクスと語彙的セマンティクスについて説明します。
視覚的セマンティクスは、人間が視覚を使用して対象の現実を知覚するときに概念を構築する方法に焦点を当てていますが、語彙的意味論は、人間が言語を使用して同じ対象の現実の概念を構築する方法に焦点を当てています。
次に、視覚的セマンティクスと語彙的セマンティクスの間の一致の欠如は、セマンティック ギャップ問題 (SGP) の形で CV システムに大きな影響を与えます。
この論文は、上記のように偶然の一致がないことを広く例証している一方で、視覚的セマンティクスと語彙的セマンティクスとの間の整合を強制するための一般的なドメインにとらわれない方法論を紹介しています。

要約(オリジナル)

We discuss two kinds of semantics relevant to Computer Vision (CV) systems – Visual Semantics and Lexical Semantics. While visual semantics focus on how humans build concepts when using vision to perceive a target reality, lexical semantics focus on how humans build concepts of the same target reality through the use of language. The lack of coincidence between visual and lexical semantics, in turn, has a major impact on CV systems in the form of the Semantic Gap Problem (SGP). The paper, while extensively exemplifying the lack of coincidence as above, introduces a general, domain-agnostic methodology to enforce alignment between visual and lexical semantics.

arxiv情報

著者 Fausto Giunchiglia,Mayukh Bagchi,Xiaolei Diao
発行日 2022-12-13 15:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク