Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2

要約

さまざまな程度の視覚障害に悩む中国人が増えているため、視野内の単一の画像またはビデオフレームと、同じ情報を表現する音声の間のモーダル変換が研究の注目の的となっている。
OCR+Vocoder や Im2Wav などの深層学習テクノロジーにより、自己監視型の英語音声合成や画像と音声のマッチングが可能になります。
しかし、トレーニングに使用される音声データは限られており、教育レベルが異なる視覚障害者にとって英語は普遍的ではありません。
そこで、視覚障害者の読書効率を向上させるためのデータ量と言語適用性の問題を解決するために、中国語の文脈に基づいた一連の画像音声フレームワーク CLIP-KNN-Fastspeech2 が構築されました。
このフレームワークは複数の基本モデルを統合し、独立した事前トレーニングと共同微調整の戦略を採用しています。
まず、中国語の CLIP と Fastspeech2 テキスト読み上げモデルが、それぞれ MUGE と Baker という 2 つの公開データセットで事前トレーニングされ、それらの収束が検証されました。
続いて、独自に構築した点字画像データセットを使用して共同微調整を実行しました。
VGGSound、Flickr8k、ImageHear、および独自に構築された点字データセット BIT-DP などの複数の公開データセットでの実験結果は、モデルが BLEU4、FAD(Fr\’echet Audio Distance)、WER(Word Error) などの客観的な指標を改善していることを示しています。
比率)、さらには推論速度も向上します。
これは、構築されたモデルが限られたデータの下で高品質の音声を合成する能力を依然として持っていることを検証し、また、複数の基本モデルを統合する共同トレーニング戦略の有効性を証明します。

要約(オリジナル)

An increasing number of Chinese people are troubled by different degrees of visual impairment, which has made the modal conversion between a single image or video frame in the visual field and the audio expressing the same information a research hotspot. Deep learning technologies such as OCR+Vocoder and Im2Wav enable English audio synthesis or image-to-sound matching in a self-supervised manner. However, the audio data used for training is limited and English is not universal for visually impaired people with different educational levels. Therefore, for the sake of solving the problems of data volume and language applicability to improve the reading efficiency of visually impaired people, a set of image-to-speech framework CLIP-KNN-Fastspeech2 based on the Chinese context was constructed. The framework integrates multiple basic models and adopts the strategy of independent pre-training and joint fine-tuning. First, the Chinese CLIP and Fastspeech2 text-to-speech models were pre-trained on two public datasets, MUGE and Baker, respectively, and their convergence was verified. Subsequently, joint fine-tuning was performed using a self-built Braille image dataset. Experimental results on multiple public datasets such as VGGSound, Flickr8k, ImageHear, and the self-built Braille dataset BIT-DP show that the model has improved objective indicators such as BLEU4,FAD(Fr\’echet Audio Distance), WER(Word Error Ratio), and even inference speed. This verifies that the constructed model still has the ability to synthesize high-quality speech under limited data, and also proves the effectiveness of the joint training strategy that integrates multiple basic models.

arxiv情報

著者 Chun Xu,En-Wei Sun
発行日 2024-07-19 11:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク