要約
ナノ・クワッドコプターは、学術界と産業界の両方から関心を集めている多目的プラットフォームである。直径$10cmという小さなフォーム・ファクターは、狭いシナリオで特に有用であり、人間の近くでは無害である。しかし、これらの利点は、自律的な操作のための超制約されたオンボードの計算および感覚リソースの代償となる。本研究では、シミュレーションのみで訓練され、実世界でロバストな予測が可能な新しいCNNに深度と画像を融合させることで、ナノドローンに搭載された人間の姿勢を推定する課題に取り組む。我々は、商用オフザシェルフ(COTS)Crazyflieナノドローン(320$times$240 pxカメラと超低消費電力システムオンチップを装備)を、新しいマルチゾーン(8$times$8)深度センサーで拡張する。深度入力と画像入力を融合するさまざまな深層学習モデルを設計し、比較します。我々のモデルは、両入力のシミュレートデータのみで学習され、実世界にうまく移行する。実地テストでは、我々の深度+カメラシステムは、カメラのみの最先端ベースラインに対して、水平平均ポーズ誤差で58%、角度平均ポーズ誤差で51%の改善が見られた。我々のプロトタイプはCOTSコンポーネントに基づいており、この新しいクラスのシステムの再現性と採用を容易にしている。
要約(オリジナル)
Nano-quadcopters are versatile platforms attracting the interest of both academia and industry. Their tiny form factor, i.e., $\,$10 cm diameter, makes them particularly useful in narrow scenarios and harmless in human proximity. However, these advantages come at the price of ultra-constrained onboard computational and sensorial resources for autonomous operations. This work addresses the task of estimating human pose aboard nano-drones by fusing depth and images in a novel CNN exclusively trained in simulation yet capable of robust predictions in the real world. We extend a commercial off-the-shelf (COTS) Crazyflie nano-drone — equipped with a 320$\times$240 px camera and an ultra-low-power System-on-Chip — with a novel multi-zone (8$\times$8) depth sensor. We design and compare different deep-learning models that fuse depth and image inputs. Our models are trained exclusively on simulated data for both inputs, and transfer well to the real world: field testing shows an improvement of 58% and 51% of our depth+camera system w.r.t. a camera-only State-of-the-Art baseline on the horizontal and angular mean pose errors, respectively. Our prototype is based on COTS components, which facilitates reproducibility and adoption of this novel class of systems.
arxiv情報
| 著者 | Luca Crupi,Elia Cereda,Alessandro Giusti,Daniele Palossi |
| 発行日 | 2023-08-03 15:51:07+00:00 |
| arxivサイト | arxiv_id(pdf) |