Now You See Me: Robust approach to Partial Occlusions

要約

タイトル:Now You See Me: Partial Occlusionsに対する堅牢なアプローチ

要約:

– コンピュータビジョンにおいて、オブジェクトの遮蔽は不可欠な問題の1つである。
– 畳み込みニューラルネットワーク(CNN)は、正規の画像分類のための様々な最先端アプローチを提供する一方で、部分的な遮蔽がある画像の分類に対してはあまり効果的ではない。
– 部分的な遮蔽とは、オブジェクトが他のオブジェクト/空間の一部によって部分的に隠されている状況である。この問題を解決すると、様々なシナリオを円滑にするための巨大なポテンシャルがある。
– 特に、自動運転シナリオとその影響に興味がある。自動車の研究は、この10年間で最も注目されているトピックの1つであり、様々な角度での運転表示や人の部分的な遮蔽など、部分的な遮蔽の状況があります。これは、犯罪を処理し、様々なグループの収入水準を予測するためのトラフィックデータのビデオ分析にさらに拡張できるため、そのプライムな意義を考慮すると、多くの方法で利用される可能性がある。
– この論文では、Stanford Car Datasetを利用し、さまざまなサイズと性質の遮蔽を追加することで独自に作成したデータセットを紹介しています。
– この作成されたデータセットで、VGG-19、ResNet 50/101、GoogleNet、DenseNet 121などの最新のCNNモデルを使用して、包括的な分析を実施し、学習後に画像が部分的に遮蔽された場合と遮蔽されていない場合のデータでトレーニングするとどのようにパフォーマンスが異なるか、どのモデルが部分的な遮蔽に対してより堅牢かなど、その結果を詳細に調査しています。

要約(オリジナル)

Occlusions of objects is one of the indispensable problems in Computer vision. While Convolutional Neural Net-works (CNNs) provide various state of the art approaches for regular image classification, they however, prove to be not as effective for the classification of images with partial occlusions. Partial occlusion is scenario where an object is occluded partially by some other object/space. This problem when solved,holds tremendous potential to facilitate various scenarios. We in particular are interested in autonomous driving scenario and its implications in the same. Autonomous vehicle research is one of the hot topics of this decade, there are ample situations of partial occlusions of a driving sign or a person or other objects at different angles. Considering its prime importance in situations which can be further extended to video analytics of traffic data to handle crimes, anticipate income levels of various groups etc.,this holds the potential to be exploited in many ways. In this paper, we introduce our own synthetically created dataset by utilising Stanford Car Dataset and adding occlusions of various sizes and nature to it. On this created dataset, we conducted a comprehensive analysis using various state of the art CNN models such as VGG-19, ResNet 50/101, GoogleNet, DenseNet 121. We further in depth study the effect of varying occlusion proportions and nature on the performance of these models by fine tuning and training these from scratch on dataset and how is it likely to perform when trained in different scenarios, i.e., performance when training with occluded images and unoccluded images, which model is more robust to partial occlusions and soon.

arxiv情報

著者 Karthick Prasad Gunasekaran,Nikita Jaiman
発行日 2023-04-25 11:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク