要約
視覚的シーンは視覚的概念で構成され、組み合わせ爆発の性質を持っています。
人間が多様な視覚シーンから効率的に学習する重要な理由は、構成的知覚の能力であり、人工知能にも同様の能力があることが望ましいです。
構図シーン表現学習は、そのような能力を可能にするタスクです。
近年、表現学習に有利であることが証明されているディープ ニューラル ネットワークを応用して、構成的なシーン表現を再構成によって学習するさまざまな方法が提案されており、この研究の方向性はディープ ラーニングの時代に進んでいます。
再構成による学習は、ラベルのない大量のデータを利用し、コストと手間のかかるデータ注釈を回避できるため、有利です。
この調査では、最初に、視覚シーンのモデリングとシーン表現の推論の観点から、開発の歴史と既存の方法の分類を含む、ディープニューラルネットワークを使用した再構成ベースの合成シーン表現学習の現在の進歩の概要を説明します。
次に、ベンチマーク実験を再現するためのオープン ソース ツールボックスを含む、最も広く研究された問題設定を考慮し、他の方法の基礎を形成する代表的な方法のベンチマークを提供します。
そして最後に、既存の方法の限界とこの研究トピックの将来の方向性について議論します。
要約(オリジナル)
Visual scenes are composed of visual concepts and have the property of combinatorial explosion. An important reason for humans to efficiently learn from diverse visual scenes is the ability of compositional perception, and it is desirable for artificial intelligence to have similar abilities. Compositional scene representation learning is a task that enables such abilities. In recent years, various methods have been proposed to apply deep neural networks, which have been proven to be advantageous in representation learning, to learn compositional scene representations via reconstruction, advancing this research direction into the deep learning era. Learning via reconstruction is advantageous because it may utilize massive unlabeled data and avoid costly and laborious data annotation. In this survey, we first outline the current progress on reconstruction-based compositional scene representation learning with deep neural networks, including development history and categorizations of existing methods from the perspectives of the modeling of visual scenes and the inference of scene representations; then provide benchmarks, including an open source toolbox to reproduce the benchmark experiments, of representative methods that consider the most extensively studied problem setting and form the foundation for other methods; and finally discuss the limitations of existing methods and future directions of this research topic.
arxiv情報
著者 | Jinyang Yuan,Tonglin Chen,Bin Li,Xiangyang Xue |
発行日 | 2023-02-09 12:50:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google