Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Future Audio-Visual Hearing Aids

要約

近年の機械学習アルゴリズムの成功にもかかわらず、これらのモデルの多くは、マルチモーダルな入力データや論理的な時間順序など、異なるソース間の相互作用を必要とする、より複雑なタスクを考える際に、いくつかの欠点に直面している。一方、生物の脳は、数百万年の進化を経て、このような情報の流れを自動的に管理・統合する力を備え、この意味で非常に研ぎ澄まされた存在である。このような背景から、本論文では、最近の脳の皮質回路に関する発見からヒントを得て、層内変調を用いたマルチモーダル情報と正準相関分析(CCA)、および時間データを追跡する記憶機構を組み合わせた、より生物学的に妥当な自己教師付き機械学習アプローチ、いわゆる正準皮質グラフニューラルネットワークを提案する。このアプローチは、よりきれいな音声の再構成と、ニューロンの発火率分布が減少し滑らかになることによるエネルギー効率の両方を考慮し、最近の最先端の結果を上回った。このモデルは、将来の視聴覚補聴器における音声強調に適したアプローチであることが示唆された。

要約(オリジナル)

Despite the recent success of machine learning algorithms, most of these models still face several drawbacks when considering more complex tasks requiring interaction between different sources, such as multimodal input data and logical time sequence. On the other hand, the biological brain is highly sharpened in this sense, empowered to automatically manage and integrate such a stream of information through millions of years of evolution. In this context, this paper finds inspiration from recent discoveries on cortical circuits in the brain to propose a more biologically plausible self-supervised machine learning approach that combines multimodal information using intra-layer modulations together with canonical correlation analysis (CCA), as well as a memory mechanism to keep track of temporal data, the so-called Canonical Cortical Graph Neural networks. The approach outperformed recent state-of-the-art results considering both better clean audio reconstruction and energy efficiency, described by a reduced and smother neuron firing rate distribution, suggesting the model as a suitable approach for speech enhancement in future audio-visual hearing aid devices.

arxiv情報

著者 Leandro A. Passos,João Paulo Papa,Ahsan Adeel
発行日 2022-06-06 15:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク