The Brain’s Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning

要約

過去数年間、脳活動から音声を解読する技術において一連の目覚ましい進歩がもたらされました。
これらの進歩の原動力はラベル付きデータの取得であり、単一の被験者から取得されるデータセットはますます大規模になっています。
ただし、参加者には解剖学的およびその他の個人差があり、データセットではさまざまなスキャナーとタスク設計が使用されます。
その結果、これまでの研究では、複数の被験者、複数のデータセット、複数のタスク、およびラベルのないデータセットからのデータを活用することが困難でした。
その結果、この分野は、大規模データや深層学習を活用するためのオープン ニューラル データ リポジトリの急速な増加から恩恵を受けてきませんでした。
これに対処するために、私たちは、異種のラベルのない神経記録からの表現学習のために、神経科学にインスピレーションを得た自己教師あり目標の初期セットをニューラル アーキテクチャとともに開発します。
実験結果によると、これらの目的で学習された表現は被験者、データセット、タスク全体に一般化され、ラベル付きデータのみを使用するよりも速く学習されることが示されています。
さらに、2 つの基本的な音声デコード タスクに対して新しいベンチマークを設定しました。
これらの方法を総合すると、桁違いに多くの既存データを使用して音声復号モデルをトレーニングできる可能性が解き放たれます。

要約(オリジナル)

The past few years have produced a series of spectacular advances in the decoding of speech from brain activity. The engine of these advances has been the acquisition of labelled data, with increasingly large datasets acquired from single subjects. However, participants exhibit anatomical and other individual differences, and datasets use varied scanners and task designs. As a result, prior work has struggled to leverage data from multiple subjects, multiple datasets, multiple tasks, and unlabelled datasets. In turn, the field has not benefited from the rapidly growing number of open neural data repositories to exploit large-scale data and deep learning. To address this, we develop an initial set of neuroscience-inspired self-supervised objectives, together with a neural architecture, for representation learning from heterogeneous and unlabelled neural recordings. Experimental results show that representations learned with these objectives generalise across subjects, datasets, and tasks, and are also learned faster than using only labelled data. In addition, we set new benchmarks for two foundational speech decoding tasks. Taken together, these methods now unlock the potential for training speech decoding models with orders of magnitude more existing data.

arxiv情報

著者 Dulhan Jayalath,Gilad Landau,Brendan Shillingford,Mark Woolrich,Oiwi Parker Jones
発行日 2024-06-06 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク