要約
追加のマルチモーダル情報を使用して自動音声認識 (ASR) のパフォーマンスを向上させることは、以前の研究で効果的であることが証明されています。
ただし、これらの作品の多くは、人間の唇の動きからの視覚的な手がかりの利用のみに焦点を当てています。
実際、コンテキスト依存の視覚的および言語的手がかりを使用して、多くのシナリオで ASR パフォーマンスを向上させることもできます。
この論文では、まず視覚的手がかりと言語的手がかりを同時にまたは個別に統合して入力音声の認識を支援できるマルチモーダル ASR モデル (ViLaS) を提案し、モーダル不完全なテスト シナリオでのパフォーマンスを向上できるトレーニング戦略を紹介します。
次に、視覚と言語の統合の効果を調査するために、視覚と言語の手がかりを備えたマルチモーダル ASR データセット (VSDial) を作成します。
最後に、公開されている Flickr8K および自己構築された VSDial データセットに関する実験結果を報告し、クロスモーダル融合スキームを調査し、VSDial 上のきめの細かいクロスモーダル アライメントを分析します。
要約(オリジナル)
Employing additional multimodal information to improve automatic speech recognition (ASR) performance has been proven effective in previous works. However, many of these works focus only on the utilization of visual cues from human lip motion. In fact, context-dependent visual and linguistic cues can also be used to improve ASR performance in many scenarios. In this paper, we first propose a multimodal ASR model (ViLaS) that can simultaneously or separately integrate visual and linguistic cues to help recognize the input speech, and introduce a training strategy that can improve performance in modal-incomplete test scenarios. Then, we create a multimodal ASR dataset (VSDial) with visual and linguistic cues to explore the effects of integrating vision and language. Finally, we report empirical results on the public Flickr8K and self-constructed VSDial datasets, investigate cross-modal fusion schemes, and analyze fine-grained cross-modal alignment on VSDial.
arxiv情報
著者 | Minglun Han,Feilong Chen,Ziyi Ni,Linghui Meng,Jing Shi,Shuang Xu,Bo Xu |
発行日 | 2023-05-31 16:01:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google