要約
小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへの影響に関する懸念が高まっており、高度な追跡および軌道推定ソリューションの必要性が強調されています。
これに応えて、この論文では、3D UAV 軌道推定にオーディオ アレイを利用する新しいフレームワークを紹介します。
私たちのアプローチには、音声データのメル スペクトログラムへの変換から始まる自己教師あり学習モデルが組み込まれており、メル スペクトログラムはエンコーダーを通じて分析され、重要な時間情報とスペクトル情報が抽出されます。
同時に、LiDAR 点群を使用し、教師なし手法で UAV の軌道を推定します。
これらの LiDAR ベースの推定は擬似ラベルとして機能し、ラベル付きデータを必要とせずに音声知覚ネットワークのトレーニングを可能にします。
このアーキテクチャでは、LiDAR ベースのシステムが教師ネットワークとして動作し、生徒ネットワークとして機能する音声知覚ネットワークをガイドします。
トレーニングが完了すると、モデルは音声信号のみを使用して 3D 軌道を独立して予測できるため、展開中に LiDAR データや外部のグラウンド トゥルースは必要ありません。
精度をさらに高めるために、ガウス過程モデリングを適用して時空間追跡を改善します。
私たちの手法は、MMAUD データセット上で最高レベルのパフォーマンスを実現し、グラウンド トゥルース アノテーションに依存せずに自己教師あり学習手法を使用して軌道推定の新しいベンチマークを確立します。
要約(オリジナル)
As small unmanned aerial vehicles (UAVs) become increasingly prevalent, there is growing concern regarding their impact on public safety and privacy, highlighting the need for advanced tracking and trajectory estimation solutions. In response, this paper introduces a novel framework that utilizes audio array for 3D UAV trajectory estimation. Our approach incorporates a self-supervised learning model, starting with the conversion of audio data into mel-spectrograms, which are analyzed through an encoder to extract crucial temporal and spectral information. Simultaneously, UAV trajectories are estimated using LiDAR point clouds via unsupervised methods. These LiDAR-based estimations act as pseudo labels, enabling the training of an Audio Perception Network without requiring labeled data. In this architecture, the LiDAR-based system operates as the Teacher Network, guiding the Audio Perception Network, which serves as the Student Network. Once trained, the model can independently predict 3D trajectories using only audio signals, with no need for LiDAR data or external ground truth during deployment. To further enhance precision, we apply Gaussian Process modeling for improved spatiotemporal tracking. Our method delivers top-tier performance on the MMAUD dataset, establishing a new benchmark in trajectory estimation using self-supervised learning techniques without reliance on ground truth annotations.
arxiv情報
著者 | Allen Lei,Tianchen Deng,Han Wang,Jianfei Yang,Shenghai Yuan |
発行日 | 2024-12-17 09:16:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google