要約
この研究では、音声テキスト情報の検索に合わせて調整された多言語、マルチモーダル表現である CLASP (Contrastive Language-Speech Pretraining) を紹介します。
CLASP は、音声コンテンツとテキスト データの相乗効果を活用します。
トレーニング中に、フィクションから宗教に至る 15 の多様なカテゴリを網羅する、新しく導入された音声テキスト データセットを利用します。
CLASP のオーディオ コンポーネントは、オーディオ スペクトログラムを事前トレーニングされた自己教師あり音声モデルと統合し、その言語エンコーディングに対応するコンポーネントは 100 以上の言語で事前トレーニングされたセンテンス エンコーダを採用しています。
この統合された軽量モデルは、さまざまなモダリティと言語の間のギャップを埋め、多言語およびマルチモーダル データの処理と取得の効率を高めます。
複数の言語にわたる評価では、CLASP が HITS@1、MRR、meanR メトリクスで新しいベンチマークを確立し、特定のシナリオにおいて従来の ASR ベースの検索アプローチを上回るパフォーマンスを示していることが実証されています。
要約(オリジナル)
This study introduces CLASP (Contrastive Language-Speech Pretraining), a multilingual, multimodal representation tailored for audio-text information retrieval. CLASP leverages the synergy between spoken content and textual data. During training, we utilize our newly introduced speech-text dataset, which encompasses 15 diverse categories ranging from fiction to religion. CLASP’s audio component integrates audio spectrograms with a pre-trained self-supervised speech model, while its language encoding counterpart employs a sentence encoder pre-trained on over 100 languages. This unified lightweight model bridges the gap between various modalities and languages, enhancing its effectiveness in handling and retrieving multilingual and multimodal data. Our evaluations across multiple languages demonstrate that CLASP establishes new benchmarks in HITS@1, MRR, and meanR metrics, outperforming traditional ASR-based retrieval approaches in specific scenarios.
arxiv情報
著者 | Mohammad Mahdi Abootorabi,Ehsaneddin Asgari |
発行日 | 2024-12-17 16:38:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google