要約
本論文では、前頭前皮質や他の脳領域の錐体細胞に関する最新の神経学的発見を考慮した、オーディオビジュアル音声拡張のための新しいマルチモーダルソリューションであるMBURSTを提案する。いわゆるバースト伝搬は、フィードバックによる可塑性の符号と大きさの調整、異なる重み接続を介した層間のフィードバックとフィードフォワード情報の多重化、フィードバックとフィードフォワード接続の近似、フィードバック信号の線形化など、より生物学的に妥当な方法で単位割り当て問題に対処するためのいくつかの基準を実装している。MBURSTは、このような能力の恩恵を受けて、ノイズ信号と視覚刺激の相関を学習し、関連する情報を増幅しノイズを抑制することで、音声に意味を帰属させる。グリッドコーパスとCHiME3ベースのデータセットに対して行われた実験によると、MBURSTはマルチモーダルバックプロパゲーションベースのベースラインと同様のマスク再構成を再現できる一方で、卓越したエネルギー効率管理を示し、ニューロンの発火率を最大で୧(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛低い値まで低減できる。このような特徴は、より持続可能な実装を意味し、補聴器や他の同様の組み込みシステムに適しており、望ましい。
要約(オリジナル)
This paper proposes the MBURST, a novel multimodal solution for audio-visual speech enhancements that consider the most recent neurological discoveries regarding pyramidal cells of the prefrontal cortex and other brain regions. The so-called burst propagation implements several criteria to address the credit assignment problem in a more biologically plausible manner: steering the sign and magnitude of plasticity through feedback, multiplexing the feedback and feedforward information across layers through different weight connections, approximating feedback and feedforward connections, and linearizing the feedback signals. MBURST benefits from such capabilities to learn correlations between the noisy signal and the visual stimuli, thus attributing meaning to the speech by amplifying relevant information and suppressing noise. Experiments conducted over a Grid Corpus and CHiME3-based dataset show that MBURST can reproduce similar mask reconstructions to the multimodal backpropagation-based baseline while demonstrating outstanding energy efficiency management, reducing the neuron firing rates to values up to \textbf{$70\%$} lower. Such a feature implies more sustainable implementations, suitable and desirable for hearing aids or any other similar embedded systems.
arxiv情報
著者 | Mohsin Raza,Leandro A. Passos,Ahmed Khubaib,Ahsan Adeel |
発行日 | 2024-02-05 17:54:04+00:00 |
arxivサイト | arxiv_id(pdf) |