要約
タイトル:リアルタイムオブジェクト検出の設計に関する報告書: DAMO-YOLO
要約:
– DAMO-YOLOは、最新のYOLOシリーズよりも高いパフォーマンスを実現する、高速かつ正確なオブジェクト検出方法を提供する。
– DAMO-YOLOは、Neural Architecture Search(NAS)やefficient Reparameterized Generalized-FPN(RepGFPN)、AlignedOTAラベル割り当てを備えた軽量ヘッド、そして蒸留の強化を含めたいくつかの新しいテクノロジーによって拡張されたYOLOから派生したものです。
– 特に、最大エントロピーの原理に従って誘導された方法であるMAE-NASを使用して、低遅延と高性能の制約下で我々の検出バックボーンを検索し、空間ピラミッドプーリングやフォーカスモジュールを含むResNet/CSPのような構造を生成しました。
– ネックとヘッドの設計では、「大きなネック、小さなヘッド」というルールに従いました。
– 加速されたクイーン融合を備えたGeneralized-FPNをインポートして、検出器ネックを構築し、効率的なレイヤ集約ネットワーク(ELAN)と再パラメータ化でそのCSPNetをアップグレードしました。
– また、ラベルの割り当てにおける誤配置の問題を解決するAlignedOTAが提案された。さらに、高度なパフォーマンス改善のために蒸留スキーマが導入されました。
– これらの新しい技術に基づいて、さまざまなスケールのモデルを構築し、異なるシナリオの需要に対応できるようにしました。
– 一般的な産業要件に対応するために、DAMO-YOLO-T/S/M/Lを提案しています。それらは、それぞれT4 GPU上の2.78/3.83/5.62/7.95msのレイテンシでCOCOで43.6/47.7/50.2/51.9 mAPsを達成することができます。
– 加えて、計算パワーが限られたエッジデバイス用に、DAMO-YOLO-Ns/Nm/Nlの軽量モデルも提案しています。X86-CPU上のレイテンシ4.08 / 5.05 / 6.69msで、それぞれCOCOで32.3 / 38.2 / 40.5 mAPsを達成することができます。
– 提案された一般的なモデルと軽量モデルは、それぞれのアプリケーションシナリオで他のYOLOシリーズモデルを上回っています。
要約(オリジナル)
In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet/CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of “large neck, small head”.We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results.In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios. For general industry requirements, we propose DAMO-YOLO-T/S/M/L. They can achieve 43.6/47.7/50.2/51.9 mAPs on COCO with the latency of 2.78/3.83/5.62/7.95 ms on T4 GPUs respectively. Additionally, for edge devices with limited computing power, we have also proposed DAMO-YOLO-Ns/Nm/Nl lightweight models. They can achieve 32.3/38.2/40.5 mAPs on COCO with the latency of 4.08/5.05/6.69 ms on X86-CPU. Our proposed general and lightweight models have outperformed other YOLO series models in their respective application scenarios.
arxiv情報
著者 | Xianzhe Xu,Yiqi Jiang,Weihua Chen,Yilun Huang,Yuan Zhang,Xiuyu Sun |
発行日 | 2023-04-24 03:32:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI