DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training

要約

正確なリアルタイムの物体検出は、安全監視から品質管理に至るまで、数多くの産業用途において不可欠です。
しかし、従来のアプローチは、骨の折れる手動のアノテーションとデータ収集によって妨げられ、絶えず変化する環境や新しいターゲットオブジェクトに適応するのに苦労しています。
これらの制限に対処するために、このホワイト ペーパーでは、データ収集からモデル評価までの物体検出ワークフローに革命をもたらす、革新的な自動化されたエンドツーエンド パイプラインである DART について説明します。
これにより、人間による面倒なラベル付けや大規模なデータ収集の必要性がなくなり、さまざまなシナリオにわたって優れた精度を達成できます。
DART には 4 つの主要な段階が含まれます: (1) 主題主導の画像生成 (SDXL を使用した DreamBooth) を使用したデータ多様化、(2) 境界ボックスとクラス ラベルを生成するためのオープン語彙オブジェクト検出 (Grounding DINO) による注釈 (3) 生成されたラベルのレビュー
信頼性を保証するための大規模なマルチモーダル モデル (InternVL-1.5 および GPT-4o) による画像と疑似ラベル、(4) 検証されたデータをグランド トゥルースとして使用するリアルタイム物体検出器 (YOLOv8 および YOLOv10) のトレーニング。
私たちは、Liebherr Product という名前の自己収集された建設機械のデータセットに DART を適用しました。このデータセットには、23 のカテゴリにわたる 15,000 を超える高品質の画像が含まれています。
DART の現在のインスタンス化により、平均精度 (AP) が 0.064 から 0.832 に大幅に増加しました。
そのモジュラー設計により、容易な交換性と拡張性が保証され、将来のアルゴリズムのアップグレード、新しいオブジェクト カテゴリのシームレスな統合、および手動のラベル付けや追加のデータ収集を必要としないカスタマイズされた環境への適応性が可能になります。
コードとデータセットは https://github.com/chen-xin-94/DART でリリースされています。

要約(オリジナル)

Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data as ground truth. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART.

arxiv情報

著者 Chen Xin,Andreas Hartel,Enkelejda Kasneci
発行日 2024-07-26 11:01:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク