Align With Purpose: Optimize Desired Properties in CTC Models with a General Plug-and-Play Framework

要約

コネクショニスト時間分類 (CTC) は、教師ありシーケンスツーシーケンス (seq2seq) モデルをトレーニングするために広く使用されている基準です。
これにより、不完全なアライメントを犠牲にして、完全なアライメント (グラウンド トゥルースを生み出す) を無視することで、アライメントと呼ばれる入力シーケンスと出力シーケンスの間の関係を学習できるようになります。
完全なアライメントと不完全なアライメントのこの二値微分では、他の現実世界のアプリケーションで重要な重要なアライメント特性を捉えるには至っていません。
ここでは、CTC 基準でトレーニングされたモデルの望ましい特性を強化するための $\textbf{汎用プラグアンドプレイ フレームワーク}$ である $\textit{Align With Purpose}$ を提案します。
これは、必要な特性に従ってアライメントに優先順位を付ける追加の損失項で CTC を補完することによって実現されます。
私たちの方法は、CTC 損失関数への介入を必要とせず、さまざまな特性の簡単な最適化を可能にし、完全なアライメントと不完全なアライメントの両方を区別することができます。
私たちはフレームワークを自動音声認識 (ASR) の領域に適用し、プロパティの選択、アーキテクチャの選択、トレーニング データセットの規模 (最大 280,000 時間) の観点からその一般性を示します。
私たちのフレームワークの有効性を実証するために、フレームワークを 2 つの無関係なプロパティ、つまり出力時間と単語誤り率 (WER) に適用します。
前者については、WER がわずかに減少しながらレイテンシーの最適化で最大 570 ミリ秒の改善が報告され、後者については、ベースライン モデルと比較して WER が 4.5% 相対的に改善されたことが報告されています。
私たちの知る限り、これらのアプリケーションが私たちのものと同じくらい大規模なデータで動作することが実証されたことはありません。
特に、私たちの方法はわずか数行のコードを使用して実装でき、他のアライメントフリーの損失関数や ASR 以外のドメインに拡張できます。

要約(オリジナル)

Connectionist Temporal Classification (CTC) is a widely used criterion for training supervised sequence-to-sequence (seq2seq) models. It enables learning the relations between input and output sequences, termed alignments, by marginalizing over perfect alignments (that yield the ground truth), at the expense of imperfect alignments. This binary differentiation of perfect and imperfect alignments falls short of capturing other essential alignment properties that hold significance in other real-world applications. Here we propose $\textit{Align With Purpose}$, a $\textbf{general Plug-and-Play framework}$ for enhancing a desired property in models trained with the CTC criterion. We do that by complementing the CTC with an additional loss term that prioritizes alignments according to a desired property. Our method does not require any intervention in the CTC loss function, enables easy optimization of a variety of properties, and allows differentiation between both perfect and imperfect alignments. We apply our framework in the domain of Automatic Speech Recognition (ASR) and show its generality in terms of property selection, architectural choice, and scale of training dataset (up to 280,000 hours). To demonstrate the effectiveness of our framework, we apply it to two unrelated properties: emission time and word error rate (WER). For the former, we report an improvement of up to 570ms in latency optimization with a minor reduction in WER, and for the latter, we report a relative improvement of 4.5% WER over the baseline models. To the best of our knowledge, these applications have never been demonstrated to work on a scale of data as large as ours. Notably, our method can be implemented using only a few lines of code, and can be extended to other alignment-free loss functions and to domains other than ASR.

arxiv情報

著者 Eliya Segev,Maya Alroy,Ronen Katsir,Noam Wies,Ayana Shenhav,Yael Ben-Oren,David Zar,Oren Tadmor,Jacob Bitterman,Amnon Shashua,Tal Rosenwein
発行日 2024-03-07 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク