Building Blocks for a Complex-Valued Transformer Architecture

要約

ほとんどの深層学習パイプラインは、画像、音声、音楽信号などの実数値入力を処理する実数値演算に基づいて構築されています。
ただし、多くのアプリケーションでは、当然、MRI やリモート センシングなど、複素数値の信号や画像が利用されます。
さらに、信号のフーリエ変換は複素数値であり、多くの用途があります。
私たちは、$\mathbb{R}^2$ への射影を使用せずに、深層学習をこれらの複素数値信号に直接適用できるようにすることを目指しています。
したがって、変換器アーキテクチャを複素領域に移すための構成要素を提示することにより、複素数値ニューラル ネットワークの最近の開発に追加します。
複素数値のスケーリング ドット積アテンション メカニズムと複素数値のレイヤー正規化の複数のバージョンを示します。
MusicNet データセットで分類とシーケンス生成タスクをテストし、実数値トランスフォーマー アーキテクチャと比較して同等のパフォーマンスを維持しながら、過学習に対する堅牢性が向上していることを示します。

要約(オリジナル)

Most deep learning pipelines are built on real-valued operations to deal with real-valued inputs such as images, speech or music signals. However, a lot of applications naturally make use of complex-valued signals or images, such as MRI or remote sensing. Additionally the Fourier transform of signals is complex-valued and has numerous applications. We aim to make deep learning directly applicable to these complex-valued signals without using projections into $\mathbb{R}^2$. Thus we add to the recent developments of complex-valued neural networks by presenting building blocks to transfer the transformer architecture to the complex domain. We present multiple versions of a complex-valued Scaled Dot-Product Attention mechanism as well as a complex-valued layer normalization. We test on a classification and a sequence generation task on the MusicNet dataset and show improved robustness to overfitting while maintaining on-par performance when compared to the real-valued transformer architecture.

arxiv情報

著者 Florian Eilers,Xiaoyi Jiang
発行日 2023-06-16 13:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE パーマリンク