要約
最近、自己監視は、ラベルのないデータから視覚的および聴覚的な音声表現を学習する上で非常に有望であることが示されています。
この研究では、生の視聴覚データから音声表現を完全に学習する、最近の RAVEn メソッドの拡張である BRAVEn を提案します。
RAVEn への変更により、BRAVEn はさまざまな設定で自己教師ありメソッドの中で最先端の結果を達成できるようになります。
さらに、ラベルなしデータの量を他の自己教師研究よりも大幅に増やすことによって、好ましいスケーリング動作が観察されました。
特に、LRS3 テスト セットでは、わずか 30 時間のラベル付きデータと外部 ASR モデルを使用せずに、VSR / ASR のワード エラー率 20.0% / 1.7% を達成しました。
私たちの結果は、すぐに入手できるラベルなしの視聴覚データが、高価な文字起こしされたデータのほとんどを置き換えることができることを示唆しています。
要約(オリジナル)
Self-supervision has recently shown great promise for learning visual and auditory speech representations from unlabelled data. In this work, we propose BRAVEn, an extension to the recent RAVEn method, which learns speech representations entirely from raw audio-visual data. Our modifications to RAVEn enable BRAVEn to achieve state-of-the-art results among self-supervised methods in various settings. Moreover, we observe favourable scaling behaviour by increasing the amount of unlabelled data well beyond other self-supervised works. In particular, we achieve 20.0% / 1.7% word error rate for VSR / ASR on the LRS3 test set, with only 30 hours of labelled data and no external ASR models. Our results suggest that readily available unlabelled audio-visual data can largely replace costly transcribed data.
arxiv情報
著者 | Alexandros Haliassos,Andreas Zinonos,Rodrigo Mira,Stavros Petridis,Maja Pantic |
発行日 | 2024-04-02 16:48:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google