Canonical Cortical Graph Neural Networks and its Application for Speech Enhancement in Audio-Visual Hearing Aids

要約

最近の機械学習アルゴリズムの成功にもかかわらず、マルチモーダル入力データや論理的な時間シーケンスなど、異なるソース間の相互作用を必要とするより複雑なタスクを考慮すると、ほとんどのモデルは欠点に直面します。
一方、生物の脳はこの意味で高度に研ぎ澄まされており、そのような情報の流れを自動的に管理および統合する能力を備えています。
これに関連して、この研究は脳皮質回路の最近の発見からインスピレーションを得て、より生物学的にもっともらしい自己教師付き機械学習アプローチを提案しています。
これは、層内変調を使用したマルチモーダル情報と正規相関分析、および時間データを追跡するためのメモリ メカニズムを組み合わせたもので、全体的なアプローチは正規皮質グラフ ニューラル ネットワークと呼ばれます。
これは、ベンチマークのオーディオビジュアル音声データセットのクリーンなオーディオ再構成とエネルギー効率の点で、最近の最先端モデルよりも優れていることが示されています。
強化されたパフォーマンスは、ニューロンの発火率分布の減少と抑制によって実証されます。
提案されたモデルは、将来の視聴覚補聴器デバイスの音声強調に適していることを示唆しています。

要約(オリジナル)

Despite the recent success of machine learning algorithms, most models face drawbacks when considering more complex tasks requiring interaction between different sources, such as multimodal input data and logical time sequences. On the other hand, the biological brain is highly sharpened in this sense, empowered to automatically manage and integrate such streams of information. In this context, this work draws inspiration from recent discoveries in brain cortical circuits to propose a more biologically plausible self-supervised machine learning approach. This combines multimodal information using intra-layer modulations together with Canonical Correlation Analysis, and a memory mechanism to keep track of temporal data, the overall approach termed Canonical Cortical Graph Neural networks. This is shown to outperform recent state-of-the-art models in terms of clean audio reconstruction and energy efficiency for a benchmark audio-visual speech dataset. The enhanced performance is demonstrated through a reduced and smother neuron firing rate distribution. suggesting that the proposed model is amenable for speech enhancement in future audio-visual hearing aid devices.

arxiv情報

著者 Leandro A. Passos,João Paulo Papa,Amir Hussain,Ahsan Adeel
発行日 2023-01-31 14:14:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD, eess.AS パーマリンク