EchoVest: Real-Time Sound Classification and Depth Perception Expressed through Transcutaneous Electrical Nerve Stimulation

要約

世界中で 15 億人以上の人々が聴覚障害を抱えて暮らしています。
このような障害を持つ人々のためにさまざまなテクノロジーが開発されているにもかかわらず、これらのテクノロジーのほとんどは非常に高価であるか、低中所得国では日常的に使用するにはアクセスできません。
この問題に対処するために、視覚障害者や聴覚障害者が自分たちの環境をより直観的に認識できるようにするための新しい支援デバイス EchoVest を開発しました。
EchoVest は、音の発生源に基づいて経皮的電気神経刺激 (TENS) を利用してユーザーの体に振動を伝達します。
EchoVest は、音の定位、音の分類、ノイズ低減、奥行き認識などのさまざまな機能も提供します。
私たちは、分類タスクに最も一般的に使用される機械学習モデルである CNN ベースの機械学習モデルを、精度と計算コストの点で上回ることを目指しました。
そのために、私たちは、音声分類の目的に注意ベースのモデルであるオーディオ スペクトログラム トランスフォーマー (AST) モデルを適応させ、ノイズ低減に高速フーリエ変換を適用する新しいオーディオ パイプラインを開発して採用しました。
大津の方法を適用することで、背景雑音フィルタリングの最適なしきい値を見つけることができ、精度が大幅に向上しました。
方向と深さを正確に計算するために、複雑な到着時間差アルゴリズムと SOTA 位置特定を適用しました。
最後の改良点は、ブラインド音源分離を使用して、アルゴリズムを複数のマイク入力に適用できるようにすることでした。
最終的なアルゴリズムは、環境音分類の ESC-50 データセットで 95.7% の精度を含む、多数のチェックポイントで最先端の結果を達成しました。

要約(オリジナル)

Over 1.5 billion people worldwide live with hearing impairment. Despite various technologies that have been created for individuals with such disabilities, most of these technologies are either extremely expensive or inaccessible for everyday use in low-medium income countries. In order to combat this issue, we have developed a new assistive device, EchoVest, for blind/deaf people to intuitively become more aware of their environment. EchoVest transmits vibrations to the user’s body by utilizing transcutaneous electric nerve stimulation (TENS) based on the source of the sounds. EchoVest also provides various features, including sound localization, sound classification, noise reduction, and depth perception. We aimed to outperform CNN-based machine-learning models, the most commonly used machine learning model for classification tasks, in accuracy and computational costs. To do so, we developed and employed a novel audio pipeline that adapts the Audio Spectrogram Transformer (AST) model, an attention-based model, for our sound classification purposes, and Fast Fourier Transforms for noise reduction. The application of Otsu’s Method helped us find the optimal thresholds for background noise sound filtering and gave us much greater accuracy. In order to calculate direction and depth accurately, we applied Complex Time Difference of Arrival algorithms and SOTA localization. Our last improvement was to use blind source separation to make our algorithms applicable to multiple microphone inputs. The final algorithm achieved state-of-the-art results on numerous checkpoints, including a 95.7\% accuracy on the ESC-50 dataset for environmental sound classification.

arxiv情報

著者 Jesse Choe,Siddhant Sood,Ryan Park
発行日 2023-07-10 14:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP パーマリンク