Predicting Compact Phrasal Rewrites with Large Language Models for ASR Post Editing

要約

大規模な言語モデル(LLM)は、テキストスタイルの転送や文法エラー補正などのタスクの書き換えに優れています。
これらのタスクの入力と出力の間にはかなりの重複がありますが、オーバーラップの量に関係なく、デコードコストは出力の長さとともに増加します。
入力と出力の間のオーバーラップを活用することにより、KanekoとOkazaki(2023)は、モデルに依存しない編集スパン表現を提案して、計算を保存するために書き換えを圧縮しました。
彼らは、4つの書き換えタスクでの精度への影響を最小限に抑えて、80%近くの出力長削減率を報告しました。
この論文では、フレーズベースの統計機械翻訳に触発された代替編集フレーズ表現を提案します。
句表現を体系的にそれらのスパン表現と比較します。
LLM書き換えモデルを自動音声認識(ASR)編集後のタスクに適用し、ターゲットフレーズのみの編集表現が最高の効率的なアクカリ性トレードオフを持っていることを示します。
Librispeechテストセットでは、編集スパンモデルと完全な書き換えモデルの間のギャップの50〜60%を閉じ、編集スパンモデルの長さ削減率の10〜20%しか失いません。

要約(オリジナル)

Large Language Models (LLMs) excel at rewriting tasks such as text style transfer and grammatical error correction. While there is considerable overlap between the inputs and outputs in these tasks, the decoding cost still increases with output length, regardless of the amount of overlap. By leveraging the overlap between the input and the output, Kaneko and Okazaki (2023) proposed model-agnostic edit span representations to compress the rewrites to save computation. They reported an output length reduction rate of nearly 80% with minimal accuracy impact in four rewriting tasks. In this paper, we propose alternative edit phrase representations inspired by phrase-based statistical machine translation. We systematically compare our phrasal representations with their span representations. We apply the LLM rewriting model to the task of Automatic Speech Recognition (ASR) post editing and show that our target-phrase-only edit representation has the best efficiency-accuracy trade-off. On the LibriSpeech test set, our method closes 50-60% of the WER gap between the edit span model and the full rewrite model while losing only 10-20% of the length reduction rate of the edit span model.

arxiv情報

著者 Hao Zhang,Felix Stahlberg,Shankar Kumar
発行日 2025-01-23 16:54:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク