Learning with SASQuaTCh: a Novel Variational Quantum Transformer Architecture with Kernel-Based Self-Attention

要約

最近の最先端の機械学習モデルのサイズの爆発的な成長は、生成事前訓練トランス(GPT)の場合のように数兆に成長した指数関数的なパラメーターの成長が、につながる有名な問題を強調しています。
トレーニング時間とメモリの要件は、短期的に進歩を制限します。
支配的なモデルは、いわゆるトランスネットワークを使用し、テキストと画像の予測、分類、物理システムのダイナミクスに対するソリューションの予測など、適用可能性の大きな分野を持っています。
ここでは、変圧器ネットワークの類似の操作を実行するキュービットのネットワーク、すなわちキーストーンの自己攻撃操作を実行し、パラメーターの指数関数的改善につながるQUBITSのネットワークを構築する自己攻撃シーケンシャル量子変圧器チャネル(SASQUATCH)という名前の変動量子回路アーキテクチャを紹介します。
その古典的なカウンターパートに対する複雑さとランタイムの複雑さ。
私たちのアプローチは、単純なゲート操作と多次元量子フーリエ変換のセットを使用して、視覚変圧器ネットワークの深い層を表すために空間的システムを予測するというコンテキストで、カーネルベースのオペレーター学習からの最近の洞察を活用しています。
アプローチを検証するために、シミュレーションおよびハードウェアの画像分類タスクを検討します。ここでは、9つのキュービットとほんの一握りのパラメーターだけで、手書きの数字のグレースケール画像を同時に埋め込んで分類できます。

要約(オリジナル)

The recent exploding growth in size of state-of-the-art machine learning models highlights a well-known issue where exponential parameter growth, which has grown to trillions as in the case of the Generative Pre-trained Transformer (GPT), leads to training time and memory requirements which limit their advancement in the near term. The predominant models use the so-called transformer network and have a large field of applicability, including predicting text and images, classification, and even predicting solutions to the dynamics of physical systems. Here we present a variational quantum circuit architecture named Self-Attention Sequential Quantum Transformer Channel (SASQuaTCh), which builds networks of qubits that perform analogous operations of the transformer network, namely the keystone self-attention operation, and leads to an exponential improvement in parameter complexity and run-time complexity over its classical counterpart. Our approach leverages recent insights from kernel-based operator learning in the context of predicting spatiotemporal systems to represent deep layers of a vision transformer network using simple gate operations and a set of multi-dimensional quantum Fourier transforms. To validate our approach, we consider image classification tasks in simulation and with hardware, where with only 9 qubits and a handful of parameters we are able to simultaneously embed and classify a grayscale image of handwritten digits with high accuracy.

arxiv情報

著者 Ethan N. Evans,Matthew Cook,Zachary P. Bradshaw,Margarite L. LaBorde
発行日 2025-02-05 16:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph パーマリンク