Training Strategies for Vision Transformers for Object Detection

要約

タイトル: 物体検出のためのVision Transformersのトレーニング戦略
要約:
– Vision-based Transformerは、視覚特徴間の長距離依存関係をモデル化する強力な能力のため、自律走行の知覚モジュールにおいて正確な3Dバウンディングボックスの予測に大きな応用が示されています。
– しかしながら、言語モデルのために最初に設計されたTransformersは、主に性能精度に焦点を当てており、推論時間予算についてあまり注意を払っていません。
– 自動運転のような安全に影響を与えるシステムでは、オンボードコンピューティングにおけるリアルタイム推論は絶対的に必要です。
– この論文では、異なる戦略を評価して、狭いランタイム予算で物体検出アルゴリズムを最適化するための方法を探ります。
– 我々の戦略の選択指標は、精度-ランタイムジョイント最適化です。
– 実際の推論時間分析のために、我々はfloat32およびfloat16精度をテンソルRTモジュールでプロファイルします。
– これは、産業界がエッジデバイス上での彼らの機械学習ネットワークの展開に最も一般的に使用している形式です。
– 我々は、評価セクションで定義された私たちの問題声明のために、わずか3%の性能低下のコストで、推論時間を63%改善することができる戦略を示しました。
– これらの戦略は、Vision Transformers検出器の推論時間を、FCOSのような従来の単一画像ベースのCNN検出器以下に引き下げます。
– 実践者には、これらの技術を使用して、予算制約のあるロボットプラットフォーム上で、重量級のマルチビューネットワークをTransformersベースで展開することをお勧めします。

要約(オリジナル)

Vision-based Transformer have shown huge application in the perception module of autonomous driving in terms of predicting accurate 3D bounding boxes, owing to their strong capability in modeling long-range dependencies between the visual features. However Transformers, initially designed for language models, have mostly focused on the performance accuracy, and not so much on the inference-time budget. For a safety critical system like autonomous driving, real-time inference at the on-board compute is an absolute necessity. This keeps our object detection algorithm under a very tight run-time budget. In this paper, we evaluated a variety of strategies to optimize on the inference-time of vision transformers based object detection methods keeping a close-watch on any performance variations. Our chosen metric for these strategies is accuracy-runtime joint optimization. Moreover, for actual inference-time analysis we profile our strategies with float32 and float16 precision with TensorRT module. This is the most common format used by the industry for deployment of their Machine Learning networks on the edge devices. We showed that our strategies are able to improve inference-time by 63% at the cost of performance drop of mere 3% for our problem-statement defined in evaluation section. These strategies brings down Vision Transformers detectors inference-time even less than traditional single-image based CNN detectors like FCOS. We recommend practitioners use these techniques to deploy Transformers based hefty multi-view networks on a budge-constrained robotic platform.

arxiv情報

著者 Apoorv Singh
発行日 2023-04-05 02:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク