Joint Neural Networks for One-shot Object Recognition and Detection

要約

本稿では、難易度の高いワンショット物体認識・検出タスクに対処するための、新しいジョイントニューラルネットワークアプローチを紹介する。シャムニューラルネットワークと最先端のマルチボックス検出アプローチに触発されたジョイントニューラルネットワークは、学習過程で未見のままのカテゴリに対する物体認識と検出を行うことができる。ワンショット物体認識/検出の制約に従い、訓練データセットとテストデータセットには重複したクラスが含まれない。ジョイントネットワークアーキテクチャは、クエリ入力とターゲット入力の畳み込み層を積み重ねることで、画像のペアを効果的に比較することができ、同じ入力クエリカテゴリのパターンを、このカテゴリに関する過去の訓練に依存することなく認識する。提案アプローチは、COCOデータセットで学習し、Pascal VOCデータセットを用いてテストした場合、MiniImageNetデータセットでの一発物体認識で61.41%の精度を達成し、一発物体検出で47.1%のmAPを達成する。コードは https://github.com/cjvargasc/JNN recog および https://github.com/cjvargasc/JNN detection/ で利用可能。

要約(オリジナル)

This paper presents a novel joint neural networks approach to address the challenging one-shot object recognition and detection tasks. Inspired by Siamese neural networks and state-of-art multi-box detection approaches, the joint neural networks are able to perform object recognition and detection for categories that remain unseen during the training process. Following the one-shot object recognition/detection constraints, the training and testing datasets do not contain overlapped classes, in other words, all the test classes remain unseen during training. The joint networks architecture is able to effectively compare pairs of images via stacked convolutional layers of the query and target inputs, recognising patterns of the same input query category without relying on previous training around this category. The proposed approach achieves 61.41% accuracy for one-shot object recognition on the MiniImageNet dataset and 47.1% mAP for one-shot object detection when trained on the COCO dataset and tested using the Pascal VOC dataset. Code available at https://github.com/cjvargasc/JNN recog and https://github.com/cjvargasc/JNN detection/

arxiv情報

著者 Camilo J. Vargas,Qianni Zhang,Ebroul Izquierdo
発行日 2024-08-01 16:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T45, cs.CV, I.5.4 パーマリンク