Look Once to Hear: Target Speech Hearing with Noisy Examples

要約

混雑した環境では、人間の脳は、音声がどのように聞こえるかについて事前に知識があれば、対象の話者の音声に集中できます。
我々は、この機能を実現する新しいインテリジェントヒアラブルシステムを導入し、ターゲットの音声の聴覚がターゲットの話者以外のすべての干渉音声とノイズを無視できるようにします。
素朴なアプローチは、ターゲット話者を登録するためにきれいな音声例を要求することです。
ただし、実際のシナリオではクリーンなサンプルを取得することが困難であり、独特のユーザー インターフェイスの問題が発生するため、これはヒアラブル アプリケーションのドメインとうまく連携していません。
我々は、装着者が対象話者を数秒間見つめて、対象話者の短くてノイズの多いバイノーラルの単一の例をキャプチャする最初の登録インターフェイスを提示します。
このノイズの多い例は、干渉する話者やノイズが存在する場合の登録とその後の音声抽出に使用されます。
当社のシステムは、5 秒未満のノイズの多い登録音声を使用して 7.01 dB の信号品質の向上を達成し、組み込み CPU で 8 ms の音声チャンクを 6.24 ms で処理できます。
当社のユーザー調査では、これまで見たことのない屋内および屋外のマルチパス環境における現実世界の静的スピーカーおよびモバイル スピーカーへの一般化を実証しています。
最後に、ノイズの多いサンプルの登録インターフェイスは、クリーンなサンプルと比較してパフォーマンスの低下を引き起こさず、便利でユーザーフレンドリーです。
一歩下がって、この論文は人工知能によって人間の聴覚を強化するための重要な一歩を踏み出します。
コードとデータは https://github.com/vb000/LookOnceToHear で提供されます。

要約(オリジナル)

In crowded settings, the human brain can focus on speech from a target speaker, given prior knowledge of how they sound. We introduce a novel intelligent hearable system that achieves this capability, enabling target speech hearing to ignore all interfering speech and noise, but the target speaker. A naive approach is to require a clean speech example to enroll the target speaker. This is however not well aligned with the hearable application domain since obtaining a clean example is challenging in real world scenarios, creating a unique user interface problem. We present the first enrollment interface where the wearer looks at the target speaker for a few seconds to capture a single, short, highly noisy, binaural example of the target speaker. This noisy example is used for enrollment and subsequent speech extraction in the presence of interfering speakers and noise. Our system achieves a signal quality improvement of 7.01 dB using less than 5 seconds of noisy enrollment audio and can process 8 ms of audio chunks in 6.24 ms on an embedded CPU. Our user studies demonstrate generalization to real-world static and mobile speakers in previously unseen indoor and outdoor multipath environments. Finally, our enrollment interface for noisy examples does not cause performance degradation compared to clean examples, while being convenient and user-friendly. Taking a step back, this paper takes an important step towards enhancing the human auditory perception with artificial intelligence. We provide code and data at: https://github.com/vb000/LookOnceToHear.

arxiv情報

著者 Bandhav Veluri,Malek Itani,Tuochao Chen,Takuya Yoshioka,Shyamnath Gollakota
発行日 2024-05-10 07:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク