要約
You Only Look Once (YOLO) シリーズの検出器は、効率的で実用的なツールとしての地位を確立しています。
ただし、事前定義およびトレーニングされたオブジェクト カテゴリに依存しているため、オープン シナリオでの適用性が制限されます。
この制限に対処するために、ビジョン言語モデリングと大規模なデータセットでの事前トレーニングを通じて、オープンな語彙検出機能で YOLO を強化する革新的なアプローチである YOLO-World を紹介します。
具体的には、視覚情報と言語情報の間の相互作用を促進するために、新しい再パラメータ化可能な視覚言語パス集約ネットワーク (RepVL-PAN) と領域テキストのコントラスト損失を提案します。
私たちの手法は、広範囲の物体をゼロショットで高効率に検出することに優れています。
困難な LVIS データセットにおいて、YOLO-World は V100 で 52.0 FPS で 35.4 AP を達成し、精度と速度の両方の点で多くの最先端の手法を上回っています。
さらに、微調整された YOLO-World は、オブジェクト検出やオープン語彙インスタンスのセグメンテーションなど、いくつかの下流タスクで顕著なパフォーマンスを達成します。
要約(オリジナル)
The You Only Look Once (YOLO) series of detectors have established themselves as efficient and practical tools. However, their reliance on predefined and trained object categories limits their applicability in open scenarios. Addressing this limitation, we introduce YOLO-World, an innovative approach that enhances YOLO with open-vocabulary detection capabilities through vision-language modeling and pre-training on large-scale datasets. Specifically, we propose a new Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN) and region-text contrastive loss to facilitate the interaction between visual and linguistic information. Our method excels in detecting a wide range of objects in a zero-shot manner with high efficiency. On the challenging LVIS dataset, YOLO-World achieves 35.4 AP with 52.0 FPS on V100, which outperforms many state-of-the-art methods in terms of both accuracy and speed. Furthermore, the fine-tuned YOLO-World achieves remarkable performance on several downstream tasks, including object detection and open-vocabulary instance segmentation.
arxiv情報
著者 | Tianheng Cheng,Lin Song,Yixiao Ge,Wenyu Liu,Xinggang Wang,Ying Shan |
発行日 | 2024-01-30 18:59:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google