Causal Reasoning Meets Visual Representation Learning: A Prospective Study

要約

視覚表現学習は、視覚理解、ビデオ理解、マルチモーダル分析、ヒューマン コンピューター インタラクション、アーバン コンピューティングなど、さまざまな実世界のアプリケーションで遍在しています。
ビッグデータ時代に大量のマルチモーダルで異種の空間/時間/時空間データが出現したため、解釈可能性の欠如、堅牢性、分布外の一般化が既存のビジュアル モデルの課題になりつつあります。
既存の方法の大部分は、元のデータ/変数分​​布に適合し、マルチモーダル知識の背後にある本質的な因果関係を無視する傾向があります.
一般化と認知能力の制限。
したがって、人間レベルのエージェントの強力な推論能力に触発されて、近年、優れた認知能力を備えた堅牢な表現とモデル学習を実現するための因果推論パラダイムの開発に多大な努力が払われています。
この論文では、基本的な理論、モデル、およびデータセットをカバーする、視覚的表現学習のための既存の因果推論方法の包括的なレビューを行います。
現在の方法とデータセットの制限についても説明します。
さらに、視覚表現学習における因果推論アルゴリズムをベンチマークするためのいくつかの将来の課題、機会、および将来の研究の方向性を提案します。
この論文は、この新しい分野の包括的な概要を提供し、注目を集め、議論を促進し、新しい因果推論方法、公開されているベンチマーク、および信頼できる視覚的表現学習と関連する現実の合意形成基準を開発する緊急性を最前線にもたらすことを目的としています。
世界のアプリケーションをより効率的に。

要約(オリジナル)

Visual representation learning is ubiquitous in various real-world applications, including visual comprehension, video understanding, multi-modal analysis, human-computer interaction, and urban computing. Due to the emergence of huge amounts of multi-modal heterogeneous spatial/temporal/spatial-temporal data in big data era, the lack of interpretability, robustness, and out-of-distribution generalization are becoming the challenges of the existing visual models. The majority of the existing methods tend to fit the original data/variable distributions and ignore the essential causal relations behind the multi-modal knowledge, which lacks an unified guidance and analysis about why modern visual representation learning methods are easily collapse into data bias and have limited generalization and cognitive abilities. Inspired by the strong inference ability of human-level agents, recent years have therefore witnessed great effort in developing causal reasoning paradigms to realize robust representation and model learning with good cognitive ability. In this paper, we conduct a comprehensive review of existing causal reasoning methods for visual representation learning, covering fundamental theories, models, and datasets. The limitations of current methods and datasets are also discussed. Moreover, we propose some prospective challenges, opportunities, and future research directions for benchmarking causal reasoning algorithms in visual representation learning. This paper aims to provide a comprehensive overview of this emerging field, attract attention, encourage discussions, bring to the forefront the urgency of developing novel causal reasoning methods, publicly available benchmarks, and consensus-building standards for reliable visual representation learning and related real-world applications more efficiently.

arxiv情報

著者 Yang Liu,Yushen Wei,Hong Yan,Guanbin Li,Liang Lin
発行日 2022-08-02 08:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク