BASS: Block-wise Adaptation for Speech Summarization

要約

エンドツーエンドの音声要約は、カスケード ベースラインよりもパフォーマンスが向上することが示されています。
ただし、このようなモデルは、計算上の制限があるため、非常に大きな入力 (数十分または数時間) でトレーニングすることが難しいため、切り捨てられたモデル入力を使用してトレーニングされます。
切り捨てはモデルの質の低下につながり、この問題の解決策はブロック単位のモデリング、つまり一度に入力フレームの一部を処理することにあります。
この論文では、非常に長いシーケンスに対して要約モデルを段階的にトレーニングできる方法を開発します。
音声要約はストリーミング プロセスとして実現され、新しい音響情報に基づいて仮説要約がブロックごとに更新されます。
ブロック間でセマンティックコンテキストを渡すための戦略を考案し、テストします。
How2 データセットの実験では、提案されたブロックごとのトレーニング方法が、切り捨てられた入力ベースラインよりも ROUGE-L 上で絶対 3 ポイント向上することを示しています。

要約(オリジナル)

End-to-end speech summarization has been shown to improve performance over cascade baselines. However, such models are difficult to train on very large inputs (dozens of minutes or hours) owing to compute restrictions and are hence trained with truncated model inputs. Truncation leads to poorer models, and a solution to this problem rests in block-wise modeling, i.e., processing a portion of the input frames at a time. In this paper, we develop a method that allows one to train summarization models on very long sequences in an incremental manner. Speech summarization is realized as a streaming process, where hypothesis summaries are updated every block based on new acoustic information. We devise and test strategies to pass semantic context across the blocks. Experiments on the How2 dataset demonstrate that the proposed block-wise training method improves by 3 points absolute on ROUGE-L over a truncated input baseline.

arxiv情報

著者 Roshan Sharma,Kenneth Zheng,Siddhant Arora,Shinji Watanabe,Rita Singh,Bhiksha Raj
発行日 2023-07-17 03:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク