要約
視覚表現学習は、視覚理解、映像理解、マルチモーダル解析、ヒューマンコンピュータインタラクション、都市コンピューティングなど、様々な実世界のアプリケーションでユビキタスである。ビッグデータ時代における膨大な量のマルチモーダル異種空間/時間/空間-時空間データの出現により、解釈可能性、頑健性、分布外汎化の欠如が既存の視覚モデルの課題となってきている。既存の手法の多くは、元のデータ/変数分布に合わせる傾向があり、マルチモーダルな知識の背後にある本質的な因果関係を無視している。このため、現代の視覚表現学習手法がなぜデータの偏りに陥りやすく、汎化能力や認知能力に限界があるのかについて統一的な指針や分析がない。そのため、近年、人間レベルのエージェントの強力な推論能力に触発され、優れた認知能力を持つ頑健な表現とモデル学習を実現するための因果推論パラダイムの開発に大きな努力が払われている。本論文では、視覚的表現学習のための因果推論手法に関して、基礎理論、モデル、データセットを網羅的にレビューする。また、現在の手法とデータセットの限界についても議論する。さらに、視覚表現学習における因果推論アルゴリズムのベンチマークを行うための、いくつかの前向きな課題、機会、および将来の研究の方向性を提案する。本論文は、この新しい分野の包括的な概要を提供し、注目を集め、議論を促し、信頼性の高い視覚表現学習と関連する実世界のアプリケーションをより効率的に行うための新しい因果推論手法、公に利用可能なベンチマーク、合意形成基準の開発の緊急性を前面に打ち出すことを目的としている。
要約(オリジナル)
Visual representation learning is ubiquitous in various real-world applications, including visual comprehension, video understanding, multi-modal analysis, human-computer interaction, and urban computing. Due to the emergence of huge amounts of multi-modal heterogeneous spatial/temporal/spatial-temporal data in big data era, the lack of interpretability, robustness, and out-of-distribution generalization are becoming the challenges of the existing visual models. The majority of the existing methods tend to fit the original data/variable distributions and ignore the essential causal relations behind the multi-modal knowledge, which lacks an unified guidance and analysis about why modern visual representation learning methods are easily collapse into data bias and have limited generalization and cognitive abilities. Inspired by the strong inference ability of human-level agents, recent years have therefore witnessed great effort in developing causal reasoning paradigms to realize robust representation and model learning with good cognitive ability. In this paper, we conduct a comprehensive review of existing causal reasoning methods for visual representation learning, covering fundamental theories, models, and datasets. The limitations of current methods and datasets are also discussed. Moreover, we propose some prospective challenges, opportunities, and future research directions for benchmarking causal reasoning algorithms in visual representation learning. This paper aims to provide a comprehensive overview of this emerging field, attract attention, encourage discussions, bring to the forefront the urgency of developing novel causal reasoning methods, publicly available benchmarks, and consensus-building standards for reliable visual representation learning and related real-world applications more efficiently.
arxiv情報
著者 | Yang Liu,Yushen Wei,Hong Yan,Guanbin Li,Liang Lin |
発行日 | 2022-07-01 08:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |