Adaptive Deep Learning for Efficient Visual Pose Estimation aboard Ultra-low-power Nano-drones

要約

直径 10cm 未満のナノドローンは、狭い環境や人間の近くな​​ど、大型のドローンでは飛行できないシナリオに適用できるため、勢いが増しています。
ただし、その小さなフォームファクタは、認識パイプラインをオンボードで実行するためのメモリとプロセッサが非常に制約されているという大きな欠点ももたらします。
したがって、軽量の深層学習ベースのアプローチがますます一般的になってきており、完全に動作する閉ループ システムと障害が発生する閉ループ システムの違いを生み出すため、計算効率とエネルギー節約がいかに重要であるかが強調されています。
この研究では、ナノドローンに搭載された超限られたリソースを最大限に活用するために、ビジョンベースの人間の姿勢推定タスクを効率的に実行するための新しい適応深層学習ベースのメカニズムを紹介します。
当社では、回帰パフォーマンスと計算コストのトレードオフが異なる 2 つの最先端 (SoA) 畳み込みニューラル ネットワーク (CNN) を活用しています。
これらの CNN を、出力の時間的一貫性とプロアクティブに実行される CNN を交換する補助タスクに基づく 3 つの新しい適応戦略と組み合わせることで、6 つの異なるシステムを提示します。
実世界のデータセットと実際のナノ ドローン ハードウェア上で、当社の最高パフォーマンスのシステムは、より大規模で最も正確な SoA モデルのみを実行した場合と比較して、同じ平均絶対誤差 (MAE) を 3% 維持しながら 28% のレイテンシー削減を示しました。
アイソレイテンシーでありながら MAE を削減し、絶対的なピークパフォーマンス (つまり、SoA モデルより 6% 優れています)。

要約(オリジナル)

Sub-10cm diameter nano-drones are gaining momentum thanks to their applicability in scenarios prevented to bigger flying drones, such as in narrow environments and close to humans. However, their tiny form factor also brings their major drawback: ultra-constrained memory and processors for the onboard execution of their perception pipelines. Therefore, lightweight deep learning-based approaches are becoming increasingly popular, stressing how computational efficiency and energy-saving are paramount as they can make the difference between a fully working closed-loop system and a failing one. In this work, to maximize the exploitation of the ultra-limited resources aboard nano-drones, we present a novel adaptive deep learning-based mechanism for the efficient execution of a vision-based human pose estimation task. We leverage two State-of-the-Art (SoA) convolutional neural networks (CNNs) with different regression performance vs. computational costs trade-offs. By combining these CNNs with three novel adaptation strategies based on the output’s temporal consistency and on auxiliary tasks to swap the CNN being executed proactively, we present six different systems. On a real-world dataset and the actual nano-drone hardware, our best-performing system, compared to executing only the bigger and most accurate SoA model, shows 28% latency reduction while keeping the same mean absolute error (MAE), 3% MAE reduction while being iso-latency, and the absolute peak performance, i.e., 6% better than SoA model.

arxiv情報

著者 Beatrice Alessandra Motetti,Luca Crupi,Mustafa Omer Mohammed Elamin Elshaigi,Matteo Risso,Daniele Jahier Pagliari,Daniele Palossi,Alessio Burrello
発行日 2024-02-23 15:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク