Lessons Learned in ATCO2: 5000 hours of Air Traffic Control Communications for Robust Automatic Speech Recognition and Understanding

要約

タイトル:ATCO2における学習成果:堅牢な自動音声認識と理解のための5000時間の航空交通管制通信

要約:

– 航空管制官とパイロットの間の音声通信は、安全かつ効率的な航空管制を確保するために重要であり、高度な意識を必要とします。
– 現在、航空管制に人工知能(AI)を統合する試みが行われています。しかし、航空管制のためのデータ駆動型AIシステムの開発には、現在は不足している大規模な注釈付きデータセットが必要とされます。
– ATCO2プロジェクトは、実時間で航空交通管制(ATC)の大量のデータを収集および前処理するためのユニークなプラットフォームを開発することを目的としたプロジェクトでした。VHFレシーバーを所有するボランティアのコミュニティから公開アクセス可能な無線周波数チャンネルからオーディオおよび監視データが収集され、後にOpenskyネットワークサーバーにアップロードされました。
– この論文では、ATCO2パートナーからの以前の作品、すなわち、(i)堅牢な自動音声認識、(ii)自然言語処理、(iii)ATC通信の英語の言語識別、および(iv)ADS-Bなどの監視データの統合を取り上げています。
– ATCO2のプロジェクト中に開発されたパイプラインとそのデータのオープンソース化が、ATC分野の研究を促進すると思われます。
– ATCO2コーパスのサンプルは、https://www.atco2.org/dataで利用可能であり、完全なコーパスはhttp://catalog.elra.info/en-us/repository/browse/ELRA-S0484を介してELDAで購入することができます。
– ATCO2は、ATCのドメインデータが少ない場合にASRエンジンを開発するための適切なデータセットであることが示されています。たとえば、CNN-TDNNf kaldiモデルを使用すると、パブリックATCデータセットではWERが17.9%から24.9%となり、ドメイン外の監視されたCNN-TDNNfモデルよりも6.6/7.6%向上します。

要約(オリジナル)

Voice communication between air traffic controllers (ATCos) and pilots is critical for ensuring safe and efficient air traffic control (ATC). This task requires high levels of awareness from ATCos and can be tedious and error-prone. Recent attempts have been made to integrate artificial intelligence (AI) into ATC in order to reduce the workload of ATCos. However, the development of data-driven AI systems for ATC demands large-scale annotated datasets, which are currently lacking in the field. This paper explores the lessons learned from the ATCO2 project, a project that aimed to develop a unique platform to collect and preprocess large amounts of ATC data from airspace in real time. Audio and surveillance data were collected from publicly accessible radio frequency channels with VHF receivers owned by a community of volunteers and later uploaded to Opensky Network servers, which can be considered an ‘unlimited source’ of data. In addition, this paper reviews previous work from ATCO2 partners, including (i) robust automatic speech recognition, (ii) natural language processing, (iii) English language identification of ATC communications, and (iv) the integration of surveillance data such as ADS-B. We believe that the pipeline developed during the ATCO2 project, along with the open-sourcing of its data, will encourage research in the ATC field. A sample of the ATCO2 corpus is available on the following website: https://www.atco2.org/data, while the full corpus can be purchased through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. We demonstrated that ATCO2 is an appropriate dataset to develop ASR engines when little or near to no ATC in-domain data is available. For instance, with the CNN-TDNNf kaldi model, we reached the performance of as low as 17.9% and 24.9% WER on public ATC datasets which is 6.6/7.6% better than ‘out-of-domain’ but supervised CNN-TDNNf model.

arxiv情報

著者 Juan Zuluaga-Gomez,Iuliia Nigmatulina,Amrutha Prasad,Petr Motlicek,Driss Khalil,Srikanth Madikeri,Allan Tart,Igor Szoke,Vincent Lenders,Mickael Rigault,Khalid Choukri
発行日 2023-05-02 02:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS パーマリンク