ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data

要約

この研究では、ImageNet で事前トレーニングされたハイブリッド ビジョン トランスフォーマー (ViT) モデルを脳波 (EEG) 回帰タスクに適用する方法を示します。
このモデルは、もともと画像分類タスク用にトレーニングされたにもかかわらず、EEG データに基づいて微調整すると、ImageNet 重みを使用せずにトレーニングされた同一アーキテクチャの ViT を含む他のモデルと比較して、顕著なパフォーマンスの向上を示します。
この発見は、モデルの一般化に関する従来の理解に疑問を投げかけ、一見無関係に見える画像データで事前トレーニングされた Transformer モデルが、適切な微調整パイプラインを備えた EEG 回帰タスクに貴重な事前情報を提供できることを示唆しています。
このアプローチの成功は、視覚タスクのコンテキストで ViT モデルによって抽出された特徴が、EEG 予測モデリングの目的で容易に変換できることを示唆しています。
この方法論は、神経科学や関連分野だけでなく、一般的に、データ収集が実際的、経済的、または倫理的な制約によって制限されているあらゆるタスクに利用することをお勧めします。
私たちの結果は、本来の目的とは明らかに異なるタスクに対する事前トレーニング済みモデルの可能性を明らかにしています。

要約(オリジナル)

In this study, we demonstrate the application of a hybrid Vision Transformer (ViT) model, pretrained on ImageNet, on an electroencephalogram (EEG) regression task. Despite being originally trained for image classification tasks, when fine-tuned on EEG data, this model shows a notable increase in performance compared to other models, including an identical architecture ViT trained without the ImageNet weights. This discovery challenges the traditional understanding of model generalization, suggesting that Transformer models pretrained on seemingly unrelated image data can provide valuable priors for EEG regression tasks with an appropriate fine-tuning pipeline. The success of this approach suggests that the features extracted by ViT models in the context of visual tasks can be readily transformed for the purpose of EEG predictive modeling. We recommend utilizing this methodology not only in neuroscience and related fields, but generally for any task where data collection is limited by practical, financial, or ethical constraints. Our results illuminate the potential of pretrained models on tasks that are clearly distinct from their original purpose.

arxiv情報

著者 Ruiqi Yang,Eric Modesitt
発行日 2023-08-01 11:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.SP パーマリンク