Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

要約

複数の生成基盤モデル、特にさまざまなモダリティでトレーニングされたモデルを、部分の合計よりも大きなものに統合することには、重大な課題が伴います。
2 つの重要なハードルは、整列されたデータ (同様の意味を含むが、異なるモダリティでは異なる表現される概念) を利用できることと、元のユニモーダル機能を損なうことなく、クロスドメイン生成タスクでユニモーダル表現を効果的に活用することです。
私たちは、クロスアテンションを使用して、個別に事前トレーニングされたユニモーダル デコーダーからマルチモーダル生成モデルを柔軟に構成することで、これらの懸念に対処するマルチタワー デコーダー アーキテクチャである Zipper を提案します。
音声とテキストのモダリティを融合する実験では、提案されたアーキテクチャが、整列されたテキスト音声データが限られたシナリオで非常に競争力のあるパフォーマンスを発揮することを示しました。
また、対応するモーダル タワー (テキストなど) をフリーズすることで、ユニモーダル (テキストからテキストの生成など) の生成パフォーマンスを選択的に維持するモデルの柔軟性も紹介します。
出力モダリティがテキストである自動音声認識 (ASR) などのクロスモーダル タスクでは、テキスト バックボーンのフリーズによるパフォーマンスの低下は無視できる程度であることを示します。
出力モダリティが音声であるテキスト読み上げ生成 (TTS) などのクロスモーダル タスクでは、事前トレーニングされた音声バックボーンを使用すると、ベースラインよりも優れたパフォーマンスが得られることを示します。

要約(オリジナル)

Integrating multiple generative foundation models, especially those trained on different modalities, into something greater than the sum of its parts poses significant challenges. Two key hurdles are the availability of aligned data (concepts that contain similar meaning but is expressed differently in different modalities), and effectively leveraging unimodal representations in cross-domain generative tasks, without compromising their original unimodal capabilities. We propose Zipper, a multi-tower decoder architecture that addresses these concerns by using cross-attention to flexibly compose multimodal generative models from independently pre-trained unimodal decoders. In our experiments fusing speech and text modalities, we show the proposed architecture performs very competitively in scenarios with limited aligned text-speech data. We also showcase the flexibility of our model to selectively maintain unimodal (e.g., text-to-text generation) generation performance by freezing the corresponding modal tower (e.g. text). In cross-modal tasks such as automatic speech recognition (ASR) where the output modality is text, we show that freezing the text backbone results in negligible performance degradation. In cross-modal tasks such as text-to-speech generation (TTS) where the output modality is speech, we show that using a pre-trained speech backbone results in superior performance to the baseline.

arxiv情報

著者 Vicky Zayats,Peter Chen,Melissa Ferrari,Dirk Padfield
発行日 2024-05-31 15:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS パーマリンク