Learning to search for and detect objects in foveal images using deep learning

要約

タイトル:深層学習を用いた視野画像内の物体認識と検索の学習

要約:

– 人間の視覚システムは、視野全体で解像度が異なる画像の処理を行っており、網膜の一部である輻輳が最高の視力を持ち、端に向かって視力は低下していく。
– しかしながら、既存の物体認識方法の多くは、空間的に不変な解像度を持つ画像センサーによって獲得された画像に依存しており、生物学的な注意メカニズムを無視している。
– この研究では、与えられたクラスを探す人間の目的による注目の仕方を模した注視予測モデルを領域興味プーリングとして用い、各注視点の輻輳画像を分類して、対象がシーンに存在するか否かを決定する。
– この2段階のパイプライン手法において、高レベルまたはパノプティックな特徴を利用したときの異なる結果を調査し、問題の空間構造をより良く考慮したよりスムーズな注視シーケンスのグラウンドトゥルースラベル関数を提供している。
– 最後に、注視予測と検出を同時に実行できる新しいデュアルタスクモデルを提案し、2つのタスク間での知識転移を可能にした。両方のタスクの相補的な性質により、トレーニングプロセスは知識共有から利益を得、以前のアプローチのベースラインスコアと比較して性能が向上したと結論付けられた。

要約(オリジナル)

The human visual system processes images with varied degrees of resolution, with the fovea, a small portion of the retina, capturing the highest acuity region, which gradually declines toward the field of view’s periphery. However, the majority of existing object localization methods rely on images acquired by image sensors with space-invariant resolution, ignoring biological attention mechanisms. As a region of interest pooling, this study employs a fixation prediction model that emulates human objective-guided attention of searching for a given class in an image. The foveated pictures at each fixation point are then classified to determine whether the target is present or absent in the scene. Throughout this two-stage pipeline method, we investigate the varying results obtained by utilizing high-level or panoptic features and provide a ground-truth label function for fixation sequences that is smoother, considering in a better way the spatial structure of the problem. Finally, we present a novel dual task model capable of performing fixation prediction and detection simultaneously, allowing knowledge transfer between the two tasks. We conclude that, due to the complementary nature of both tasks, the training process benefited from the sharing of knowledge, resulting in an improvement in performance when compared to the previous approach’s baseline scores.

arxiv情報

著者 Beatriz Paula,Plinio Moreno
発行日 2023-04-12 09:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク