DAMO-YOLO : A Report on Real-Time Object Detection Design

要約

このレポートでは、最先端のYOLOシリーズよりも高いパフォーマンスを実現するDAMO-YOLOと呼ばれる高速で正確な物体検出方法を紹介します。
DAMO-YOLO は YOLO から拡張され、Neural Architecture Search (NAS)、効率的な Reparameterized Generalized-FPN (RepGFPN)、AlignedOTA ラベル割り当てを備えた軽量ヘッド、蒸留強化などのいくつかの新しいテクノロジーが追加されています。
特に、最大エントロピーの原理に基づいた方法である MAE-NAS を使用して、低レイテンシと高性能という制約の下で検出バックボーンを検索し、空間ピラミッド プーリングとフォーカス モジュールを備えた ResNet のような / CSP のような構造を生成します。
.
ネックとヘッドのデザインは「首が大きく、頭が小さい」というルールを踏襲。
加速されたクイーン融合を備えたGeneralized-FPNをインポートして、検出器の首を構築し、効率的なレイヤーアグリゲーションネットワーク(ELAN)と再パラメータ化でCSPNetをアップグレードします。
次に、検出ヘッドのサイズが検出性能にどのように影響するかを調査し、タスク プロジェクション レイヤーが 1 つだけの重いネックの方が良い結果が得られることを発見しました。
さらに、AlignedOTA は、ラベル割り当てにおけるミスアライメントの問題を解決するために提案されています。
また、パフォーマンスをより高いレベルに向上させるために、蒸留スキーマが導入されています。
これらの新しい技術に基づいて、DAMO-YOLO-Tiny/Small/Medium など、さまざまなシナリオのニーズを満たすために、さまざまなスケールで一連のモデルを構築します。
T4 GPU でそれぞれ 2.78/3.83/5.62 ミリ秒のレイテンシで、COCO で 43.0/46.8/50.0 mAP を達成できます。
コードは https://github.com/tinyvision/damo-yolo で入手できます。

要約(オリジナル)

In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet-like / CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of ‘large neck, small head’. We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results. In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios, i.e., DAMO-YOLO-Tiny/Small/Medium. They can achieve 43.0/46.8/50.0 mAPs on COCO with the latency of 2.78/3.83/5.62 ms on T4 GPUs respectively. The code is available at https://github.com/tinyvision/damo-yolo.

arxiv情報

著者 Xianzhe Xu,Yiqi Jiang,Weihua Chen,Yilun Huang,Yuan Zhang,Xiuyu Sun
発行日 2022-12-15 10:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク