Efficient Deep Speech Understanding at the Edge

要約

現代の音声理解(SU)では、ストリーミング音声入力の取り込みを含む高度なパイプラインが採用されている。パイプラインはビームサーチを繰り返し実行し、ディープニューラルネットワークを呼び出して自己回帰的に暫定的な出力(仮説と呼ばれる)を生成する。定期的に、パイプラインは注意とコネクショニスト時間分類(CTC)スコアを評価する。 本稿の目的は、リソースが限られたエッジデバイスにおけるSUのパフォーマンスを向上させることである。ハイブリッド戦略を採用する我々のアプローチは、デバイス上での実行を加速し、デバイスの能力を超える入力をオフロードすることに重点を置く。このアプローチは確立されているが、我々は革新的な技術によってSU特有の課題に取り組んでいる:これは、入力の取り込み中にモデルのアテンション・エンコーダを並列実行することを含む。(2) パイロット推論:SUパイプラインにおける時間的な負荷不均衡に対処し、それらを効果的に軽減することを目的とする。(3) 自己回帰オフランプ:オフロードに関する決定は仮説のみに基づいて行われ、斬新なアプローチを提示する。 これらの技法は、既存の音声モデル、パイプライン、フレームワークとシームレスに統合できるように設計されており、単独または組み合わせて適用できる柔軟性を備えています。これらを組み合わせることで、エッジSUのためのハイブリッドソリューションを形成する。XYZと名付けられた我々のプロトタイプは、6~8コアを搭載したArmプラットフォームでテストを行い、最先端の精度を実証しました。特筆すべきは、エンド・ツー・エンドのレイテンシーを2倍削減し、それに対応してオフロードの必要性を2倍削減したことである。

要約(オリジナル)

In contemporary speech understanding (SU), a sophisticated pipeline is employed, encompassing the ingestion of streaming voice input. The pipeline executes beam search iteratively, invoking a deep neural network to generate tentative outputs (referred to as hypotheses) in an autoregressive manner. Periodically, the pipeline assesses attention and Connectionist Temporal Classification (CTC) scores. This paper aims to enhance SU performance on edge devices with limited resources. Adopting a hybrid strategy, our approach focuses on accelerating on-device execution and offloading inputs surpassing the device’s capacity. While this approach is established, we tackle SU’s distinctive challenges through innovative techniques: (1) Late Contextualization: This involves the parallel execution of a model’s attentive encoder during input ingestion. (2) Pilot Inference: Addressing temporal load imbalances in the SU pipeline, this technique aims to mitigate them effectively. (3) Autoregression Offramps: Decisions regarding offloading are made solely based on hypotheses, presenting a novel approach. These techniques are designed to seamlessly integrate with existing speech models, pipelines, and frameworks, offering flexibility for independent or combined application. Collectively, they form a hybrid solution for edge SU. Our prototype, named XYZ, has undergone testing on Arm platforms featuring 6 to 8 cores, demonstrating state-of-the-art accuracy. Notably, it achieves a 2x reduction in end-to-end latency and a corresponding 2x decrease in offloading requirements.

arxiv情報

著者 Rongxiang Wang,Felix Xiaozhu Lin
発行日 2023-12-04 15:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク