Advancing Airport Tower Command Recognition: Integrating Squeeze-and-Excitation and Broadcasted Residual Learning

要約

パイロットは航空交通管制の指示に正確に従わなければならないため、航空コマンドを正確に認識することは飛行の安全性と効率性にとって極めて重要です。
この論文では、キーワード スポッティング テクノロジを進歩させることで、騒がしい環境や限られた計算リソースなどの音声コマンド認識における課題に対処します。
私たちは、日常的および緊急時の指示を含む、標準化された空港タワーコマンドのデータセットを作成します。
スクイーズアンド励起および時間フレーム周波数ごとのスクイーズアンド励起技術を使用してブロードキャストされた残差学習を強化し、その結果、BC-SENet モデルが得られます。
このモデルは、少ないパラメータで重要な情報に焦点を当てています。
BC-SENet を含む 5 つのキーワード スポッティング モデルに対するテストでは、優れた精度と効率性が実証されました。
これらの発見は、騒がしく一か八かの環境における航空の安全性と効率性を高めるための音声コマンド認識の向上におけるモデルの進歩の有効性を浮き彫りにしています。
さらに、BC-SENet は、一般的な Google Speech Command データセットに対して同等のパフォーマンスを示します。

要約(オリジナル)

Accurate recognition of aviation commands is vital for flight safety and efficiency, as pilots must follow air traffic control instructions precisely. This paper addresses challenges in speech command recognition, such as noisy environments and limited computational resources, by advancing keyword spotting technology. We create a dataset of standardized airport tower commands, including routine and emergency instructions. We enhance broadcasted residual learning with squeeze-and-excitation and time-frame frequency-wise squeeze-and-excitation techniques, resulting in our BC-SENet model. This model focuses on crucial information with fewer parameters. Our tests on five keyword spotting models, including BC-SENet, demonstrate superior accuracy and efficiency. These findings highlight the effectiveness of our model advancements in improving speech command recognition for aviation safety and efficiency in noisy, high-stakes environments. Additionally, BC-SENet shows comparable performance on the common Google Speech Command dataset.

arxiv情報

著者 Yuanxi Lin,Tonglin Zhou,Yang Xiao
発行日 2024-06-26 12:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク