要約
これまで見たことのないオブジェクトの 1 枚または数枚の写真が提示されると、人間はさまざまなシーンでそれを即座に認識できます。
この現象の背後にある人間の脳のメカニズムはまだ完全には理解されていませんが、この研究では、このタスクの新しい技術的実現が導入されています。
これは 2 つのフェーズで構成されます。(1) シーン画像を指定されたオブジェクト画像パッチと畳み込み、SDM 内のハイライト領域が可能な位置を示すようにして、類似性密度マップ (SDM) を生成します。
(2)領域アライメントネットワーク(RAN)を通じてシーン内のオブジェクトの占有領域を取得する。
RAN はディープ シャム ネットワーク (DSN) のバックボーン上に構築されており、従来の DSN とは異なり、グラウンド トゥルースとハイライト エリアで示される予測値との間の位置と面積の差異を回帰することにより、オブジェクトの正確な領域を取得することを目的としています。
SDMで。
従来のデータセットで注釈が付けられたラベルから事前学習することにより、SDM-RAN は微調整を行わずに、これまで未知だったオブジェクトを検出できます。
実験は MS COCO、PASCAL VOC データセットで行われました。
結果は、提案された方法が同じタスクに関して最先端の方法よりも優れていることを示しています。
要約(オリジナル)
When presented with one or a few photos of a previously unseen object, humans can instantly recognize it in different scenes. Although the human brain mechanism behind this phenomenon is still not fully understood, this work introduces a novel technical realization of this task. It consists of two phases: (1) generating a Similarity Density Map (SDM) by convolving the scene image with the given object image patch(es) so that the highlight areas in the SDM indicate the possible locations; (2) obtaining the object occupied areas in the scene through a Region Alignment Network (RAN). The RAN is constructed on a backbone of Deep Siamese Network (DSN), and different from the traditional DSNs, it aims to obtain the object accurate regions by regressing the location and area differences between the ground truths and the predicted ones indicated by the highlight areas in SDM. By pre-learning from labels annotated in traditional datasets, the SDM-RAN can detect previously unknown objects without fine-tuning. Experiments were conducted on the MS COCO, PASCAL VOC datasets. The results indicate that the proposed method outperforms state-of-the-art methods on the same task.
arxiv情報
著者 | Junyu Hao,Jianheng Liu,Yongjia Zhao,Zuofan Chen,Qi Sun,Jinlong Chen,Jianguo Wei,Minghao Yang |
発行日 | 2024-11-04 15:38:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google