Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism with Neural Networks

要約

深層学習の領域では、自己注意メカニズムは、自然言語処理やコンピューター ビジョンを含む無数のタスクにわたってその極めて重要な役割を実証してきました。
さまざまなアプリケーションで成功を収めているにもかかわらず、従来のセルフアテンション メカニズムは主にクエリ、キー、値 (QKV) の計算に線形変換を活用しており、特定の状況下では常に最適な選択であるとは限りません。
この論文では、計算用に特別に設計されたニューラル ネットワーク構造を実装する、QKV 計算の新しい方法論を詳しく調査します。
修正されたマリアン モデルを利用して、IWSLT 2017 ドイツ語-英語翻訳タスク データセットで実験を実施し、私たちの手法を従来のアプローチと並べて配置しました。
実験結果では、私たちの方法により BLEU スコアが大幅に向上したことが明らかになりました。
さらに、私たちのアプローチは、Wikitext-103 データセットを使用して Roberta モデルをトレーニングするときにも優位性を示し、元の対応物と比較してモデルの複雑さが顕著に減少したことを反映しています。
これらの実験結果は、私たちの方法の有効性を検証するだけでなく、ニューラルネットワークベースのQKV計算による自己注意メカニズムの最適化における計り知れない可能性を明らかにし、将来の研究と実用化への道を開きます。
私たちが提案するメソッドのソース コードと実装の詳細は、https://github.com/ocislyjrti/NeuralAttendance でアクセスできます。

要約(オリジナル)

In the realm of deep learning, the self-attention mechanism has substantiated its pivotal role across a myriad of tasks, encompassing natural language processing and computer vision. Despite achieving success across diverse applications, the traditional self-attention mechanism primarily leverages linear transformations for the computation of query, key, and value (QKV), which may not invariably be the optimal choice under specific circumstances. This paper probes into a novel methodology for QKV computation-implementing a specially-designed neural network structure for the calculation. Utilizing a modified Marian model, we conducted experiments on the IWSLT 2017 German-English translation task dataset and juxtaposed our method with the conventional approach. The experimental results unveil a significant enhancement in BLEU scores with our method. Furthermore, our approach also manifested superiority when training the Roberta model with the Wikitext-103 dataset, reflecting a notable reduction in model perplexity compared to its original counterpart. These experimental outcomes not only validate the efficacy of our method but also reveal the immense potential in optimizing the self-attention mechanism through neural network-based QKV computation, paving the way for future research and practical applications. The source code and implementation details for our proposed method can be accessed at https://github.com/ocislyjrti/NeuralAttention.

arxiv情報

著者 Muhan Zhang
発行日 2023-10-17 17:06:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク