要約
Transformerベースのアーキテクチャは、ディープラーニングの展望に革命をもたらした。コンピュータビジョンの領域では、Vision Transformerは畳み込みニューラルネットワークと同等か、それを上回る驚くべき性能を示している。しかし、その自己注意メカニズムの2次関数的な計算複雑性は、古典的なコンピューティングに課題をもたらし、画像などの高次元入力データを用いたモデル学習を特に高価なものにしている。このような限界に対処するため、我々は、量子コンピューティングの原理を活用し、モデル性能を向上させながらモデル学習を高速化するハイブリッド量子ビジョン変換器(HQViT)を提案する。HQViTは、振幅エンコーディングによる全画像処理を導入し、位置エンコーディングを追加することなく、大域的な画像情報をよりよく保存します。最も重要なステップに量子計算を活用し、その他のコンポーネントは古典的な方法で選択的に処理することで、HQViTの量子リソースのコストを低減している。量子ビットの必要量は$O(log_2N)$に最小化され、パラメータ化された量子ゲートの数は$O(log_2d)$で済み、ノイズの多い中間量子デバイスに適している。計算集約的な注目係数行列計算を量子フレームワークにオフロードすることで、HQViTは古典的な計算負荷を$O(T^2d)$削減する。様々なコンピュータビジョンデータセットの広範な実験により、HQViTが既存のモデルを凌駕し、最大で$10.9%$(MNIST 10分類タスクにおいて)の改善を達成することが実証された。この研究は、複雑な画像分類タスクに対処するために量子コンピューティングと古典コンピューティングを組み合わせることの大きな可能性を強調している。
要約(オリジナル)
Transformer-based architectures have revolutionized the landscape of deep learning. In computer vision domain, Vision Transformer demonstrates remarkable performance on par with or even surpassing that of convolutional neural networks. However, the quadratic computational complexity of its self-attention mechanism poses challenges for classical computing, making model training with high-dimensional input data, e.g., images, particularly expensive. To address such limitations, we propose a Hybrid Quantum Vision Transformer (HQViT), that leverages the principles of quantum computing to accelerate model training while enhancing model performance. HQViT introduces whole-image processing with amplitude encoding to better preserve global image information without additional positional encoding. By leveraging quantum computation on the most critical steps and selectively handling other components in a classical way, we lower the cost of quantum resources for HQViT. The qubit requirement is minimized to $O(log_2N)$ and the number of parameterized quantum gates is only $O(log_2d)$, making it well-suited for Noisy Intermediate-Scale Quantum devices. By offloading the computationally intensive attention coefficient matrix calculation to the quantum framework, HQViT reduces the classical computational load by $O(T^2d)$. Extensive experiments across various computer vision datasets demonstrate that HQViT outperforms existing models, achieving a maximum improvement of up to $10.9\%$ (on the MNIST 10-classification task) over the state of the art. This work highlights the great potential to combine quantum and classical computing to cope with complex image classification tasks.
arxiv情報
著者 | Hui Zhang,Qinglin Zhao,Mengchu Zhou,Li Feng |
発行日 | 2025-04-03 16:13:34+00:00 |
arxivサイト | arxiv_id(pdf) |