Sentence-Level Multimodal and Language-Agnostic Representations

要約

新しい多言語かつマルチモーダルな固定サイズの文埋め込みスペースである SONAR を紹介します。
200 言語をカバーする当社の単一テキスト エンコーダーは、xsim および xsim++ の多言語類似性検索タスクにおいて、LASER3 や LabSE などの既存の文埋め込みを大幅に上回ります。
音声セグメントは、音声転写データの教師と生徒の設定でトレーニングされた言語固有の音声エンコーダを使用して、同じ SONAR 埋め込み空間に埋め込むことができます。
当社のエンコーダは、類似性検索タスクにおいて既存の音声エンコーダよりも優れたパフォーマンスを発揮します。
また、200 の言語に対応したテキスト デコーダも提供しており、ゼロショット言語とモダリティの組み合わせを含め、テキストからテキストへの機械翻訳や音声からテキストへの機械翻訳を実行できます。
固定サイズのボトルネック表現にもかかわらず、当社のテキストからテキストへの結果は、最先端の NLLB~1B モデルと比較して優れています。
当社のゼロショット音声からテキストへの翻訳結果は、Whisper などの強力な教師付きベースラインと比べても遜色ありません。

要約(オリジナル)

We introduce SONAR, a new multilingual and multimodal fixed-size sentence embedding space. Our single text encoder, covering 200 languages, substantially outperforms existing sentence embeddings such as LASER3 and LabSE on the xsim and xsim++ multilingual similarity search tasks. Speech segments can be embedded in the same SONAR embedding space using language-specific speech encoders trained in a teacher-student setting on speech transcription data. Our encoders outperform existing speech encoders on similarity search tasks. We also provide a text decoder for 200 languages, which allows us to perform text-to-text and speech-to-text machine translation, including for zero-shot language and modality combinations. Our text-to-text results are competitive compared to the state-of-the-art NLLB~1B model, despite the fixed-size bottleneck representation. Our zero-shot speech-to-text translation results compare favorably with strong supervised baselines such as Whisper.

arxiv情報

著者 Paul-Ambroise Duquenne,Holger Schwenk,Benoît Sagot
発行日 2023-08-22 14:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク