Seeing the Intangible: Survey of Image Classification into High-Level and Abstract Categories

要約

コンピューター ビジョン (CV) の分野は、「高レベル」の視覚的センスメイキング タスクにますます移行していますが、これらのタスクの正確な性質は依然として不明瞭かつ暗黙のままです。
この調査論文は、特に自動画像分類における抽象概念 (AC) に焦点を当て、高レベルの視覚的理解に関する研究を体系的にレビューすることで、この曖昧さに対処しています。
私たちの調査は、主に 3 つの方法で貢献します。まず、学際的な分析と、常識的、感情的、美的、帰納的解釈意味論を含む異なるクラスターへの分類を通じて、CV における高レベルの意味論の暗黙の理解を明らかにします。
次に、高レベルの視覚的センスメイキングに関連するコンピューター ビジョン タスクを特定して分類し、この領域内の多様な研究領域への洞察を提供します。
最後に、価値観やイデオロギーなどの抽象的な概念が CV でどのように扱われるかを検証し、AC ベースの画像分類における課題と機会を明らかにします。
特に、AC 画像分類タスクに関する私たちの調査では、大規模なデータセットの有効性の限界や補足情報と中間レベルの特徴の統合の重要性など、永続的な課題が浮き彫りになっています。
AC 画像分類タスクの多面的な性質に対処する上で、ハイブリッド AI システムの関連性が高まっていることを強調します。
全体として、この調査は履歴書における高レベルの視覚的推論についての理解を深め、将来の研究努力の基礎を築きます。

要約(オリジナル)

The field of Computer Vision (CV) is increasingly shifting towards “high-level” visual sensemaking tasks, yet the exact nature of these tasks remains unclear and tacit. This survey paper addresses this ambiguity by systematically reviewing research on high-level visual understanding, focusing particularly on Abstract Concepts (ACs) in automatic image classification. Our survey contributes in three main ways: Firstly, it clarifies the tacit understanding of high-level semantics in CV through a multidisciplinary analysis, and categorization into distinct clusters, including commonsense, emotional, aesthetic, and inductive interpretative semantics. Secondly, it identifies and categorizes computer vision tasks associated with high-level visual sensemaking, offering insights into the diverse research areas within this domain. Lastly, it examines how abstract concepts such as values and ideologies are handled in CV, revealing challenges and opportunities in AC-based image classification. Notably, our survey of AC image classification tasks highlights persistent challenges, such as the limited efficacy of massive datasets and the importance of integrating supplementary information and mid-level features. We emphasize the growing relevance of hybrid AI systems in addressing the multifaceted nature of AC image classification tasks. Overall, this survey enhances our understanding of high-level visual reasoning in CV and lays the groundwork for future research endeavors.

arxiv情報

著者 Delfina Sol Martinez Pandiani,Valentina Presutti
発行日 2024-02-29 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY パーマリンク