要約
近年、大規模なVision and Language (V&L)プリトレーニングは、多くのマルチメディアシステムの標準的なバックボーンとなっている。未視聴の状況でも顕著な性能を示す一方で、人間にとって直感的でない方法で実行されることが多い。特に、人間が言語を理解するために活用する、入力の発音を考慮しないのが普通であり、特に未知の単語に関しては、そのようなことはない。そこで、本論文では、V&L事前学習モデルの1つであるCLIP(Contrastive Language-Image Pretraining)に音声的事前学習を挿入し、発音入力間の発音類似度を考慮させる。そのために、まず、国際音声記号(IPA)表が提供する音素関係を音素先行として利用する音素埋め込みを提案する。次に、凍結されたCLIPテキストエンコーダを蒸留することで、IPAベースのエンベッディングを採用した発音エンコーダを訓練する。IPA-CLIPと名付けられた提案モデルは、この発音エンコーダーとオリジナルのCLIPエンコーダー(画像とテキスト)で構成される。定量的な評価により、提案する音素埋め込みを用いた場合、埋め込み空間上の音素分布がより正確に音韻関係を表すことが明らかになった。さらに、いくつかのマルチモーダル検索タスクにおいて、提案する発音エンコーダがテキストエンコーダの性能を向上させること、発音エンコーダがテキストエンコーダよりも無意味な単語をより音声的に扱うことを確認しています。最後に、定性的な評価により、発音エンコーダーと発音の類似性に関する人間の知覚との相関を検証する。
要約(オリジナル)
Recently, large-scale Vision and Language (V\&L) pretraining has become the standard backbone of many multimedia systems. While it has shown remarkable performance even in unseen situations, it often performs in ways not intuitive to humans. Particularly, they usually do not consider the pronunciation of the input, which humans would utilize to understand language, especially when it comes to unknown words. Thus, this paper inserts phonetic prior into Contrastive Language-Image Pretraining (CLIP), one of the V\&L pretrained models, to make it consider the pronunciation similarity among its pronunciation inputs. To achieve this, we first propose a phoneme embedding that utilizes the phoneme relationships provided by the International Phonetic Alphabet (IPA) chart as a phonetic prior. Next, by distilling the frozen CLIP text encoder, we train a pronunciation encoder employing the IPA-based embedding. The proposed model named IPA-CLIP comprises this pronunciation encoder and the original CLIP encoders (image and text). Quantitative evaluation reveals that the phoneme distribution on the embedding space represents phonetic relationships more accurately when using the proposed phoneme embedding. Furthermore, in some multimodal retrieval tasks, we confirm that the proposed pronunciation encoder enhances the performance of the text encoder and that the pronunciation encoder handles nonsense words in a more phonetic manner than the text encoder. Finally, qualitative evaluation verifies the correlation between the pronunciation encoder and human perception regarding pronunciation similarity.
arxiv情報
著者 | Chihaya Matsuhira,Marc A. Kastner,Takahiro Komamizu,Takatsugu Hirayama,Keisuke Doman,Yasutomo Kawanishi,Ichiro Ide |
発行日 | 2023-03-06 13:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |