要約
現代のニューラル音声モデルは、より長いコンテキストを持つことから恩恵を受けており、モデルが使用できる最大コンテキストを増やすために多くのアプローチが提案されています。
ただし、これらのモデルが実際に使用するコンテキスト、つまり効果的なコンテキストを測定しようとした人はほとんどいません。
ここでは、効果的なコンテキストを測定するための2つのアプローチを提案し、それらを使用して異なる音声変圧器を分析します。
監視されたモデルの場合、効果的なコンテキストは、タスクの性質とよく相関しており、基本的な周波数追跡、電話分類、および効果的なコンテキストの量を増やす必要がある単語分類が必要であることがわかります。
自己監視モデルの場合、効果的なコンテキストは主に初期層で増加し、監視された電話モデルと同様に比較的短いままであることがわかります。
これらのモデルが予測中に長いコンテキストを使用しないことを考えると、アーキテクチャを変更せずに、さらに微調整することなく、ヒューバートをストリーミングモードで実行できることを示します。
要約(オリジナル)
Modern neural speech models benefit from having longer context, and many approaches have been proposed to increase the maximum context a model can use. However, few have attempted to measure how much context these models actually use, i.e., the effective context. Here, we propose two approaches to measuring the effective context, and use them to analyze different speech Transformers. For supervised models, we find that the effective context correlates well with the nature of the task, with fundamental frequency tracking, phone classification, and word classification requiring increasing amounts of effective context. For self-supervised models, we find that effective context increases mainly in the early layers, and remains relatively short — similar to the supervised phone model. Given that these models do not use a long context during prediction, we show that HuBERT can be run in streaming mode without modification to the architecture and without further fine-tuning.
arxiv情報
著者 | Yen Meng,Sharon Goldwater,Hao Tang |
発行日 | 2025-05-28 15:36:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google