How do Hyenas deal with Human Speech? Speech Recognition and Translation with ConfHyena

要約

最先端のニューラル モデルの基礎であるアテンション メカニズムは、二次関数の複雑さのため、長いシーケンスを処理する際に計算上のハードルに直面しています。
その結果、過去数年間の研究努力は、より効率的な代替手段を見つけることに重点を置きました。
その中でも、Hyena (Poli et al., 2023) は、言語モデリングと画像分類の両方で競争力のある結果を達成しながら、二次二次記憶と計算の複雑さを提供することで際立っています。
これらの有望な結果に基づいて、我々は、長い入力シーケンスが高い計算コストを引き起こす音声処理のためのエンコーダの自己注意をハイエナの適応に置き換えるコンフォーマーであるConfHyenaを提案します。
自動音声認識 (英語の場合) と翻訳 (英語から 8 つのターゲット言語へ) の実験を通じて、最良の ConfHyena モデルは品質の低下を最小限に抑えながら (~1%)、トレーニング時間を 27% 大幅に短縮することを示しました。
ほとんどの場合、これは統計的に有意ではありません。

要約(オリジナル)

The attention mechanism, a cornerstone of state-of-the-art neural models, faces computational hurdles in processing long sequences due to its quadratic complexity. Consequently, research efforts in the last few years focused on finding more efficient alternatives. Among them, Hyena (Poli et al., 2023) stands out for achieving competitive results in both language modeling and image classification, while offering sub-quadratic memory and computational complexity. Building on these promising results, we propose ConfHyena, a Conformer whose encoder self-attentions are replaced with an adaptation of Hyena for speech processing, where the long input sequences cause high computational costs. Through experiments in automatic speech recognition (for English) and translation (from English into 8 target languages), we show that our best ConfHyena model significantly reduces the training time by 27%, at the cost of minimal quality degradation (~1%), which, in most cases, is not statistically significant.

arxiv情報

著者 Marco Gaido,Sara Papi,Matteo Negri,Luisa Bentivogli
発行日 2024-02-20 18:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク