Long Range Object-Level Monocular Depth Estimation for UAVs


コンピューター ビジョン ベースの物体検出は、UAV の自律飛行ミッションを可能にする高度な検出および回避システムの重要なモダリティです。
まず、深度推定を回帰タスクとしてモデル化するときに、Sigmoid および ReLU のようなエンコーディングを提案します。
次に、深度推定を分類問題として組み立て、トレーニング ロスの計算に Soft-Argmax 関数を導入します。
拡張機能は、例として YOLOX オブジェクト検出フレームワークに適用されます。
Amazon Airborne Object Tracking データセットを使用してパフォーマンスを評価します。
さらに、オブジェクト検出と深度推定の両方のパフォーマンスを共同で評価する新しいメトリックとして、フィットネス スコアを導入します。


Computer vision-based object detection is a key modality for advanced Detect-And-Avoid systems that allow for autonomous flight missions of UAVs. While standard object detection frameworks do not predict the actual depth of an object, this information is crucial to avoid collisions. In this paper, we propose several novel extensions to state-of-the-art methods for monocular object detection from images at long range. Firstly, we propose Sigmoid and ReLU-like encodings when modeling depth estimation as a regression task. Secondly, we frame the depth estimation as a classification problem and introduce a Soft-Argmax function in the calculation of the training loss. The extensions are exemplarily applied to the YOLOX object detection framework. We evaluate the performance using the Amazon Airborne Object Tracking dataset. In addition, we introduce the Fitness score as a new metric that jointly assesses both object detection and depth estimation performance. Our results show that the proposed methods outperform state-of-the-art approaches w.r.t. existing, as well as the proposed metrics.


著者 David Silva,Nicolas Jourdan,Nils Gählert
発行日 2023-02-17 15:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク