要約
タイトル:Vision Transformerを用いた開放ボキャブラリー物体検出における地域認識の事前学習
要約:
– RO-ViTと呼ばれる、コントラスト画像テキスト事前学習方法が提案された。
– 事前学習フェーズでは、画像全体の位置埋め込みではなく、ランダムに切り抜いた域領域の位置埋め込みを使用することで、地域認識により適合させることができる。
– 一般的なソフトマックスクロスエントロピー損失に代わり、難しい例をよりよく学習するためにフォーカル損失を採用する。
– 新しい物体提案の技術を活用して、開放ボキャブラリー物体検出のセットアップを改善し、バンドとして検討することによりゼロショット学習を行うことができる。
– LVISとCOCOのオープンボーキャブラリー物体検出ベンチマークとゼロショット転送を評価し、RO-ViTはLVISで32.1 AP_rの最高値を達成し、既存の手法よりも+5.8ポイント高い。また、画像レベルの表現も改善され、COCOとFlickrの画像テキスト検索ベンチマークの12つのメトリックのうち9つで最高値を達成する。
要点:
– RO-ViTと呼ばれる画像テキストのコントラスト事前学習法が提案された。
– 他の手法と比較して劣らない性能を発揮する検出セットアップを改善した。
– 同時に、画像レベルの表現力も向上することが示された。
– この手法はCOCOやFlickrなどの画像テキスト検索ベンチマークでも最高水準を達成した。
要約(オリジナル)
We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) – a contrastive image-text pretraining recipe to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we propose to randomly crop and resize regions of positional embeddings instead of using the whole image positional embeddings. This better matches the use of positional embeddings at region-level in the detection finetuning phase. In addition, we replace the common softmax cross entropy loss in contrastive learning with focal loss to better learn the informative yet difficult examples. Finally, we leverage recent advances in novel object proposals to improve open-vocabulary detection finetuning. We evaluate our full model on the LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer. RO-ViT achieves a state-of-the-art 32.1 $AP_r$ on LVIS, surpassing the best existing approach by +5.8 points in addition to competitive zero-shot transfer detection. Surprisingly, RO-ViT improves the image-level representation as well and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr image-text retrieval benchmarks, outperforming competitive approaches with larger models.
arxiv情報
著者 | Dahun Kim,Anelia Angelova,Weicheng Kuo |
発行日 | 2023-05-11 17:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI