Integrating Saliency Ranking and Reinforcement Learning for Enhanced Object Detection

要約

物体検出アプローチの種類が増え続ける中、この研究では、強化学習 (RL) ベースの視覚的注意手法と顕著性ランキング手法を組み合わせた一連の実験を検討し、透明性と持続可能なソリューションを調査します。
この研究では、最初のバウンディング ボックス予測に顕著性ランキングを統合し、その後 RL 手法を適用して、複数のタイム ステップにわたる有限セットのアクションを通じてこれらの予測を改良することにより、RL オブジェクトの検出精度を向上させることを目的としています。
一連の実験として提示されたこの研究では、さまざまな画像特徴抽出法の使用を調査し、深層強化学習ベースのローカリゼーション エージェント トレーニングのためのさまざまな Deep Q-Network (DQN) アーキテクチャのバリエーションを調査します。
さらに、軽量で高速なモデルを優先することで、あらゆるステップで検出パイプラインを最適化することに重点を置き、同時に、以前の RL アプローチにはなかった、検出されたオブジェクトを分類する機能も組み込みました。
Pascal VOC 2007 データセットを使用してこれらのトレーニングされたエージェントのパフォーマンスを評価することにより、より高速でより最適化されたモデルが開発されたことを示します。
注目すべきことに、この研究で達成された最高の平均平均精度 (mAP) は 51.4 であり、文献で RL ベースの単一物体検出器によって設定されたベンチマークを上回りました。

要約(オリジナル)

With the ever-growing variety of object detection approaches, this study explores a series of experiments that combine reinforcement learning (RL)-based visual attention methods with saliency ranking techniques to investigate transparent and sustainable solutions. By integrating saliency ranking for initial bounding box prediction and subsequently applying RL techniques to refine these predictions through a finite set of actions over multiple time steps, this study aims to enhance RL object detection accuracy. Presented as a series of experiments, this research investigates the use of various image feature extraction methods and explores diverse Deep Q-Network (DQN) architectural variations for deep reinforcement learning-based localisation agent training. Additionally, we focus on optimising the detection pipeline at every step by prioritising lightweight and faster models, while also incorporating the capability to classify detected objects, a feature absent in previous RL approaches. We show that by evaluating the performance of these trained agents using the Pascal VOC 2007 dataset, faster and more optimised models were developed. Notably, the best mean Average Precision (mAP) achieved in this study was 51.4, surpassing benchmarks set by RL-based single object detectors in the literature.

arxiv情報

著者 Matthias Bartolo,Dylan Seychell,Josef Bajada
発行日 2024-08-13 10:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク