Less is More! A slim architecture for optimal language translation

要約

ソフトマックス アテンション メカニズムは、Transformer ベースのアーキテクチャの成功に基づいて、人工知能研究の分野で注目すべき開発として登場しました。
ただし、サイズが増大し続けると、計算メモリも増大し続ける必要があり、その使用量が制限されます。
私たちは、ソフトマックス アテンションと組み合わせて、アーキテクチャのサイズを増やすことなくパフォーマンスを大幅に向上させるシグモイド ゲート メカニズムである KgV を提案します。
サイズ要件を修正するには、Tensor Chain を利用して余分なパラメータを特定し、削除します。
このような過剰は主に埋め込み層内に存在し、出力線形層には存在しないことがわかりました。
埋め込みをさらに改善し、パラメータを大幅に削減するために、同時にパフォーマンスを向上させる階層型埋め込み層である H-SoftPOS を導入します。
注目すべきことに、WMT14 英語-ドイツ語検証セットでは、私たちのアプローチは複雑さを 3 分の 1 に削減し、現在の最先端技術を上回り、同時にパラメーター数も 3 分の 1 に削減しました。パラメーターの数をさらに減らすと、
最大 7 倍でも、ベースラインの Transformer と比較して複雑さの 21\% の減少を達成できます。
一般化機能を理解するために、WMT17 データセットの 7 つの言語ペアで実験を実施します。
私たちの方法は、パラメータの数を半分にしながら、テスト損失の点で既存の技術を上回っています。
さらに、従来の最先端技術と比較して、分散が 70 分の 1 に減少していることがわかります。
結論として、私たちが提案した方法により、パフォーマンスが大幅に向上し、メモリコストが大幅に削減されます。
結果として得られるアーキテクチャを Anthe と呼びます。

要約(オリジナル)

The softmax attention mechanism has emerged as a noteworthy development in the field of Artificial Intelligence research, building on the successes of Transformer-based architectures. However, their ever increasing sizes necessitate ever increasing computational memory, that limits their usage. We propose KgV, a sigmoid gating mechanism that, in conjunction with softmax attention, significantly boosts performance without increasing architecture size. To amend the size requirements, we leverage Tensor Chains to identify and prune the excess parameters. We find that such excess resides primarily within the embedding layer, and not in the output linear layer. To further improve embedding and significantly reduce parameters, we introduce H-SoftPOS, a hierarchical embedding layer which simultaneously enhances performance. Remarkably, on the WMT14 English-German validation set, our approach yields a threefold reduction in perplexity, surpassing the current state-of-the-art, while reducing parameter counts also by a factor of 3. When we further reduce the number of parameters up to sevenfold, we can still achieve a 21\% decrease in perplexity with respect to the baseline Transformer. To understand generalization capabilities, we conduct experiments on the 7 language pairs of the WMT17 dataset. Our method outperforms existing techniques in terms of test loss while simultaneously halving the number of parameters. Moreover, we observe a 70 times reduction in variance with respect to the prior state-of-the-art. In conclusion, our proposed method yields significant improvements in performance and much lower memory cost. We call the resulting architecture Anthe.

arxiv情報

著者 Luca Herranz-Celotti,Ermal Rrapaj
発行日 2023-05-18 14:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク