要約
音声からの従来のトピック識別ソリューションは、自動音声認識システム (ASR) に依存して、テキストベースのモデルへの入力として使用されるトランスクリプトを生成します。
これらのアプローチは、パイプラインの両方のコンポーネントをトレーニングするのに十分なデータがある、高リソースのシナリオでうまく機能します。
ただし、リソースが少ない状況では、ASR システムは、利用可能であっても低品質のトランスクリプトを生成し、テキストベースの分類器が不適切になる可能性があります。
さらに、ためらいを含む自発的な発話は、ASR モデルのパフォーマンスをさらに低下させる可能性があります。
このペーパーでは、音声のみの技術と、テキストと音声の機能を共同利用するハイブリッド技術を比較することにより、標準的なテキストのみのソリューションの代替案を調査します。
フィンランド語の自発的な音声で評価されたモデルは、ASR コンポーネントが利用できない場合、純粋にオーディオベースのソリューションが実行可能なオプションである一方、ハイブリッド マルチモーダル ソリューションが最良の結果を達成することを示しています。
要約(オリジナル)
Traditional topic identification solutions from audio rely on an automatic speech recognition system (ASR) to produce transcripts used as input to a text-based model. These approaches work well in high-resource scenarios, where there are sufficient data to train both components of the pipeline. However, in low-resource situations, the ASR system, even if available, produces low-quality transcripts, leading to a bad text-based classifier. Moreover, spontaneous speech containing hesitations can further degrade the performance of the ASR model. In this paper, we investigate alternatives to the standard text-only solutions by comparing audio-only and hybrid techniques of jointly utilising text and audio features. The models evaluated on spontaneous Finnish speech demonstrate that purely audio-based solutions are a viable option when ASR components are not available, while the hybrid multi-modal solutions achieve the best results.
arxiv情報
著者 | Dejan Porjazovski,Tamás Grósz,Mikko Kurimo |
発行日 | 2023-07-21 09:30:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google