要約
最近、研究者は、場合によっては、大規模なインターネット データでの自己教師ありの事前トレーニングが、高品質/手動でラベル付けされたデータ セットよりも優れていること、およびマルチモーダル/大規模モデルが単一またはバイモーダル/
小型モデル。
この論文では、Bridging-Vision-and-Language (BriVL) に基づくロバストな音声表現学習方法 WavBriVL を提案します。
WavBriVL は、マルチモーダル アプリケーションを実現できるように、オーディオ、画像、およびテキストを共有の埋め込みスペースに投影します。
このペーパーの主な目的で、WavBriVL から生成された画像を共有埋め込み空間として定性的に評価する方法を示します。
(2) 画像生成の新しい方法、つまり音声を使用して画像を生成する方法を探ります。
実験結果は、この方法が音声から適切な画像を効果的に生成できることを示しています。
要約(オリジナル)
Recently, researchers have gradually realized that in some cases, the self-supervised pre-training on large-scale Internet data is better than that of high-quality/manually labeled data sets, and multimodal/large models are better than single or bimodal/small models. In this paper, we propose a robust audio representation learning method WavBriVL based on Bridging-Vision-and-Language (BriVL). WavBriVL projects audio, image and text into a shared embedded space, so that multi-modal applications can be realized. We demonstrate the qualitative evaluation of the image generated from WavBriVL as a shared embedded space, with the main purposes of this paper: (1) Learning the correlation between audio and image; (2) Explore a new way of image generation, that is, use audio to generate pictures. Experimental results show that this method can effectively generate appropriate images from audio.
arxiv情報
著者 | Sen Fang,Yangjian Wu,Bowen Gao,Teik Toe Teoh |
発行日 | 2023-03-08 13:58:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google