YOLOv12: A Breakdown of the Key Architectural Features

要約

このペーパーでは、Yolov12の建築分析を紹介します。これは、重要な改善を導入しながら、前身の強みに基づいて、単一段階のリアルタイムオブジェクト検出構築の大幅な進歩です。
このモデルには、最適化されたバックボーン(R-ELAN)、7×7分離可能な畳み込み、およびフラッシュ駆動型のエリアベースの注意が組み込まれ、特徴抽出、効率の向上、堅牢な検出が改善されます。
前任者と同様に、複数のモデルバリエーションを使用して、Yolov12は、遅延に敏感なアプリケーションと高精度の両方のアプリケーションのためのスケーラブルなソリューションを提供します。
実験結果は、平均平均精度(MAP)と推​​論速度で一貫した利益を示し、Yolov12を自律システム、セキュリティ、およびリアルタイム分析でのアプリケーションに魅力的な選択にします。
計算効率とパフォーマンスの間で最適なバランスをとることにより、Yolov12はリアルタイムコンピュータービジョンの新しいベンチマークを設定し、エッジデバイスから高性能クラスターまで、多様なハードウェアプラットフォーム全体の展開を促進します。

要約(オリジナル)

This paper presents an architectural analysis of YOLOv12, a significant advancement in single-stage, real-time object detection building upon the strengths of its predecessors while introducing key improvements. The model incorporates an optimised backbone (R-ELAN), 7×7 separable convolutions, and FlashAttention-driven area-based attention, improving feature extraction, enhanced efficiency, and robust detections. With multiple model variants, similar to its predecessors, YOLOv12 offers scalable solutions for both latency-sensitive and high-accuracy applications. Experimental results manifest consistent gains in mean average precision (mAP) and inference speed, making YOLOv12 a compelling choice for applications in autonomous systems, security, and real-time analytics. By achieving an optimal balance between computational efficiency and performance, YOLOv12 sets a new benchmark for real-time computer vision, facilitating deployment across diverse hardware platforms, from edge devices to high-performance clusters.

arxiv情報

著者 Mujadded Al Rabbani Alif,Muhammad Hussain
発行日 2025-02-20 17:08:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク