要約
タイトル: 部分的な遮蔽に対する頑健なアプローチ:Now You See Me
要約:
– コンピュータビジョンにおける物体の遮蔽は、不可欠な問題の1つである。
– CNNは、通常の画像分類に対して各種の最新アプローチを提供するものの、部分的な遮蔽がある画像の分類にはあまり効果的ではない。
– 本研究では、自律走行のシナリオに関心を持ち、その影響を調査している。
– 自律走行のシナリオでは、自動車の標識や人物などに部分的な遮蔽が発生する場合がある。
– この問題を解決することは、犯罪対策や各種グループの収入レベルの予測など、様々なシナリオにおいて大いに役立つことができる。
– 本論文では、Stanford Car Datasetを利用して、さまざまなサイズや性質の遮蔽を追加したデータセットを作成し、VGG-19、ResNet 50/101、GoogleNet、DenseNet 121など、最新のCNNモデルを用いて、包括的な分析を行った。
– また、学習する際に遮蔽された画像と未遮蔽の画像の両方を使用した場合、どのモデルが部分的な遮蔽に対してより頑健であるか、遮蔽比率や性質の変化がこれらのモデルの性能にどのような影響を与えるかなど、さらに詳細な研究も行っている。
要約(オリジナル)
Occlusions of objects is one of the indispensable problems in Computer vision. While Convolutional Neural Net-works (CNNs) provide various state of the art approaches for regular image classification, they however, prove to be not as effective for the classification of images with partial occlusions. Partial occlusion is scenario where an object is occluded partially by some other object/space. This problem when solved,holds tremendous potential to facilitate various scenarios. We in particular are interested in autonomous driving scenario and its implications in the same. Autonomous vehicle research is one of the hot topics of this decade, there are ample situations of partial occlusions of a driving sign or a person or other objects at different angles. Considering its prime importance in situations which can be further extended to video analytics of traffic data to handle crimes, anticipate income levels of various groups etc.,this holds the potential to be exploited in many ways. In this paper, we introduce our own synthetically created dataset by utilising Stanford Car Dataset and adding occlusions of various sizes and nature to it. On this created dataset, we conducted a comprehensive analysis using various state of the art CNN models such as VGG-19, ResNet 50/101, GoogleNet, DenseNet 121. We further in depth study the effect of varying occlusion proportions and nature on the performance of these models by fine tuning and training these from scratch on dataset and how is it likely to perform when trained in different scenarios, i.e., performance when training with occluded images and unoccluded images, which model is more robust to partial occlusions and soon.
arxiv情報
著者 | Karthick Prasad Gunasekaran,Nikita Jaiman |
発行日 | 2023-04-24 00:31:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI