要約
タイトル:M-SpeechCLIP:大規模な事前トレーニング済みモデルを利用した多言語音声画像検索の活用
要約:
– 大規模な英語事前トレーニング済みモデル(CLIPとHuBERT)を使用した多言語画像音声検索の利用を研究する。
– 非英語画像音声検索において、個々の言語ごとに別々のモデルをトレーニングする場合と、3つの言語すべての音声を処理する単一モデルで、現在の最高性能を大幅に上回っています。
– CLIPとHuBERTの英語による事前トレーニングによるモデルの動作および性能における英語と非英語の設定間の主要な違いを特定し、事前トレーニング済みモデルの微調整がこれらの違いにどのように影響を与えるかを調査します。
– さらに、トレーニング中に任意の並列音声テキストまたは音声音声データを見たことがなくても、モデルを単言語およびクロス言語音声テキスト検索およびクロス言語音声音声検索に使用できることを示します。
要約(オリジナル)
This work investigates the use of large-scale, English-only pre-trained models (CLIP and HuBERT) for multilingual image-speech retrieval. For non-English image-speech retrieval, we outperform the current state-of-the-art performance by a wide margin both when training separate models for each language, and with a single model which processes speech in all three languages. We identify key differences in model behavior and performance between English and non-English settings, attributable to the English-only pre-training of CLIP and HuBERT, and investigate how fine-tuning the pre-trained models impacts these differences. Finally, we show that our models can be used for mono- and cross-lingual speech-text retrieval and cross-lingual speech-speech retrieval, despite never having seen any parallel speech-text or speech-speech data during training.
arxiv情報
著者 | Layne Berry,Yi-Jen Shih,Hsuan-Fu Wang,Heng-Jui Chang,Hung-yi Lee,David Harwath |
発行日 | 2023-04-10 14:10:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI