要約
オーディオビジュアル音声認識 (AVSR) は、自動音声認識 (ASR) をマルチモーダルに拡張したもので、オーディオを補完するものとしてビデオを使用します。
AVSR では、読唇術などの顔の特徴のデータセットにかなりの努力が向けられてきましたが、より広い文脈での画像理解能力の評価には不十分なことがよくあります。
本稿では、科学論文の解説ビデオを利用したAVSRデータセットであるSlideAVSRを構築します。
SlideAVSR は、モデルがプレゼンテーション記録のスライド上のテキストを使用して音声発話を転写する新しいベンチマークを提供します。
論文の説明で頻繁に使用される専門用語は、参考テキストなしで転記するのが難しいことで知られているため、当社の SlideAVSR データセットは AVSR 問題の新たな側面に焦点を当てています。
シンプルかつ効果的なベースラインとして、スライドから文字情報を参照できるAVSRモデルDocWhisperを提案し、SlideAVSR上でその有効性を確認します。
要約(オリジナル)
Audio-visual speech recognition (AVSR) is a multimodal extension of automatic speech recognition (ASR), using video as a complement to audio. In AVSR, considerable efforts have been directed at datasets for facial features such as lip-readings, while they often fall short in evaluating the image comprehension capabilities in broader contexts. In this paper, we construct SlideAVSR, an AVSR dataset using scientific paper explanation videos. SlideAVSR provides a new benchmark where models transcribe speech utterances with texts on the slides on the presentation recordings. As technical terminologies that are frequent in paper explanations are notoriously challenging to transcribe without reference texts, our SlideAVSR dataset spotlights a new aspect of AVSR problems. As a simple yet effective baseline, we propose DocWhisper, an AVSR model that can refer to textual information from slides, and confirm its effectiveness on SlideAVSR.
arxiv情報
著者 | Hao Wang,Shuhei Kurita,Shuichiro Shimizu,Daisuke Kawahara |
発行日 | 2024-07-02 13:43:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google