On-Device Self-Supervised Learning of Low-Latency Monocular Depth from Only Events

要約

イベント カメラは、わずかミリワットの電力で低遅延の認識を提供します。
そのため、小型飛行ドローンなど、リソースが限られた機敏なロボットに非常に適しています。
コントラスト最大化に基づく自己教師あり学習は、高周波のグラウンドトゥルースの必要性を回避し、ロボットの動作環境でのオンライン学習を可能にするため、イベントベースのロボットビジョンに大きな可能性を秘めています。
ただし、オンラインのオンボード学習では、競争力のある視覚認識パフォーマンスを維持しながら、リアルタイム学習に十分な計算効率を達成するという大きな課題が生じます。
この作業では、コントラスト最大化学習パイプラインの時間とメモリ効率を改善します。
ベンチマーク実験では、提案されたパイプラインがイベントからの深度推定タスクに関して最先端のパイプラインと競合する結果を達成することを示しています。
さらに、実世界の飛行実験を通じて、学習した深度が障害物回避に有用であることを実証します。
最後に、深度推定ネットワークの事前トレーニングと微調整のさまざまな組み合わせのパフォーマンスを比較し、数分の飛行であればオンボードのドメイン適応が実現可能であることを示します。

要約(オリジナル)

Event cameras provide low-latency perception for only milliwatts of power. This makes them highly suitable for resource-restricted, agile robots such as small flying drones. Self-supervised learning based on contrast maximization holds great potential for event-based robot vision, as it foregoes the need to high-frequency ground truth and allows for online learning in the robot’s operational environment. However, online, onboard learning raises the major challenge of achieving sufficient computational efficiency for real-time learning, while maintaining competitive visual perception performance. In this work, we improve the time and memory efficiency of the contrast maximization learning pipeline. Benchmarking experiments show that the proposed pipeline achieves competitive results with the state of the art on the task of depth estimation from events. Furthermore, we demonstrate the usability of the learned depth for obstacle avoidance through real-world flight experiments. Finally, we compare the performance of different combinations of pre-training and fine-tuning of the depth estimation networks, showing that on-board domain adaptation is feasible given a few minutes of flight.

arxiv情報

著者 Jesse Hagenaars,Yilun Wu,Federico Paredes-Vallés,Stein Stroobants,Guido de Croon
発行日 2024-12-09 10:23:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク