Efficient Encoders for Streaming Sequence Tagging

要約

ストリーミング シーケンスのタグ付けに最先端の双方向エンコーダーを単純に適用するには、インクリメンタル ストリーミング入力 (文字起こしされた音声など) の新しいトークンごとに、各トークンを最初からエンコードする必要があります。
前の計算の再利用性の欠如は、浮動小数点演算 (または FLOP) の数と不要なラベル フリップの数の増加につながります。
その結果、FLOP が増加すると実時間も長くなり、ラベル フリッピングが増加すると、ストリーミング パフォーマンスが低下します。
この作業では、オフライン (または完全な) 入力で双方向エンコーダーのパフォーマンスを維持しながら、ストリーミング (または不完全な) 入力でのパフォーマンスを向上させながら、これらの問題に対処するアダプティブ リスタート (HEAR) を備えたハイブリッド エンコーダーを紹介します。
HEAR には、エンコーダの双方向部分の再起動を選択的にガイドするアダプティブ リスタート モジュール (ARM) と共に、シーケンスのタグ付けを実行するハイブリッド単方向-双方向エンコーダ アーキテクチャがあります。
4 つのシーケンス タグ付けタスク全体で、HEAR はストリーミング設定で最大 71.1% の FLOP 節約を提供し、ストリーミング予測の双方向エンコーダーを最大 +10% ストリーミング完全一致で上回ります。

要約(オリジナル)

A naive application of state-of-the-art bidirectional encoders for streaming sequence tagging would require encoding each token from scratch for each new token in an incremental streaming input (like transcribed speech). The lack of re-usability of previous computation leads to a higher number of Floating Point Operations (or FLOPs) and higher number of unnecessary label flips. Increased FLOPs consequently lead to higher wall-clock time and increased label flipping leads to poorer streaming performance. In this work, we present a Hybrid Encoder with Adaptive Restart (HEAR) that addresses these issues while maintaining the performance of bidirectional encoders over the offline (or complete) inputs while improving performance on streaming (or incomplete) inputs. HEAR has a Hybrid unidirectional-bidirectional encoder architecture to perform sequence tagging, along with an Adaptive Restart Module (ARM) to selectively guide the restart of bidirectional portion of the encoder. Across four sequence tagging tasks, HEAR offers FLOP savings in streaming settings upto 71.1% and also outperforms bidirectional encoders for streaming predictions by upto +10% streaming exact match.

arxiv情報

著者 Ayush Kaushal,Aditya Gupta,Shyam Upadhyay,Manaal Faruqui
発行日 2023-03-16 08:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク