Let’s Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Robust and Instruction-Aware ASR and OCR

要約

「生成融合デコード」(GFD)を提案します。これは、大規模な言語モデル(LLM)を自動音声認識(ASR)および光学特性認識(OCR)のためのクロスモーダルテキスト認識システムに統合するために設計された新しい浅い融合フレームワークです。
GFDがバイトレベルでの尤度を計算することにより、異なるモデルの不一致のトークンスペース全体で動作できるようにするために必要な定式化を導き出し、それにより、デコードプロセス中にシームレスな融合と同期進行を可能にします。
GFDはデザインごとにプラグアンドプレイであり、再トレーニングを必要とせずに、さまざまな自動回帰モデルと容易に互換性があります。
GFDは、LLMとの中間および頻繁な相互作用を通じて一般的なASRおよびOCRタスクに効果的であり、英語およびマンダリンのベンチマークでカスケードされた方法を上回ります。
さらに、GFDはLLMSのコンテキスト学習能力を転送し、命令対応および長いコンテキスト設定で適応性のあるASRを可能にし、最大17.7 \%の大幅な削減をもたらします。

要約(オリジナル)

We propose ‘Generative Fusion Decoding’ (GFD), a novel shallow fusion framework designed to integrate large language models (LLMs) into cross-modal text recognition systems for automatic speech recognition (ASR) and optical character recognition (OCR). We derive the necessary formulations to enable GFD to operate across mismatched token spaces of different models by calculating likelihood at the byte level, thereby enabling seamless fusion and synchronous progression during the decoding process. GFD is plug-and-play by design, making it readily compatible with various auto-regressive models without the need for any re-training. GFD proves effective for general ASR and OCR tasks through intermediate and frequent interactions with LLMs, surpassing cascaded methods in English and Mandarin benchmarks. In addition, GFD transfers in-context learning abilities of LLMs and allows for adaptive ASR in instruction-aware and long-context settings, yielding significant WER reductions of up to 17.7\%.

arxiv情報

著者 Chan-Jan Hsu,Yi-Chang Chen,Feng-Ting Liao,Pei-Chen Ho,Yu-Hsiang Wang,Po-Chun Hsu,Da-shan Shiu
発行日 2025-06-11 17:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク