要約
畳み込みニューラルネットワーク(CNN)は、デジタル画像や動画を処理するための新しく正確な方法を提供してきた。しかし、CNNの学習には、計算機資源の面で非常に大きな負担がかかります。また、特定のアプリケーションでは、標準的な伝達学習も必要以上に多くのリソースを必要とする傾向がある。さらに、最終的なシステムは、解釈が困難なブラックボックスとして動作する傾向がある。本論文では、AOLMEビデオデータセットから顔を検出する問題を検討する。AOLMEデータセットは、制約のない教室環境で記録されたグループインタラクションの大規模なビデオコレクションから構成されている。本論文では、18本の24分動画から1分毎に静止画フレームを抽出した。そして、各ビデオフレームを50×50ピクセルの9×5ブロックに分割した。19440個のブロックごとに、顔画素の割合をグランドトゥルースとして設定した。そして、顔検出は各ブロックの顔画素の割合を決定する回帰問題として定義された。異なる手法をテストするために、12本の動画をトレーニングと検証に使用した。残りの6本の動画はテストに使用された。本論文では、AOLMEブロックベースの顔検出アプリケーションに瞬時位相を使用した場合の影響を検証している。比較のため、瞬時位相に基づく周波数変調画像の使用、瞬時振幅の使用、およびオリジナルのグレースケール画像を比較した。FMとAMの入力を生成するために、本論文では、解釈可能性を維持しながら学習オーバーヘッドを減少させることを目的とした支配成分分析を使用しています。
要約(オリジナル)
Convolutional Neural Networks (CNN) have provided new and accurate methods for processing digital images and videos. Yet, training CNNs is extremely demanding in terms of computational resources. Also, for specific applications, the standard use of transfer learning also tends to require far more resources than what may be needed. Furthermore, the final systems tend to operate as black boxes that are difficult to interpret. The current thesis considers the problem of detecting faces from the AOLME video dataset. The AOLME dataset consists of a large video collection of group interactions that are recorded in unconstrained classroom environments. For the thesis, still image frames were extracted at every minute from 18 24-minute videos. Then, each video frame was divided into 9×5 blocks with 50×50 pixels each. For each of the 19440 blocks, the percentage of face pixels was set as ground truth. Face detection was then defined as a regression problem for determining the face pixel percentage for each block. For testing different methods, 12 videos were used for training and validation. The remaining 6 videos were used for testing. The thesis examines the impact of using the instantaneous phase for the AOLME block-based face detection application. For comparison, the thesis compares the use of the Frequency Modulation image based on the instantaneous phase, the use of the instantaneous amplitude, and the original gray scale image. To generate the FM and AM inputs, the thesis uses dominant component analysis that aims to decrease the training overhead while maintaining interpretability.
arxiv情報
著者 | Luis Sanchez Tapia |
発行日 | 2022-08-03 17:10:54+00:00 |
arxivサイト | arxiv_id(pdf) |