WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

要約

複数の入力形式でトレーニングすると、言語モデルの機能を強化できます。
ここでは、そのようなトレーニング体制がこれらのシステムの品質と効率も向上させることができるかどうかを尋ねます。
私たちはテキスト – オーディオに焦点を当て、FLAVA \citep{singh_flava_2022} のテキスト – 画像アプローチからインスピレーションを得た Whisbert を紹介します。
Babylm \citep{warstadt2023papers} ガイドラインに従って、1 億単語とそれに対応する音声データセット \citep{galvez_peoples_2021} の単語整列バージョンからの対応する音声のみで構成されるデータセットでウィスバートを事前トレーニングします。
マルチモダリティの影響を評価するために、テキストのみでトレーニングされたモデルと、音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較します。
Whisbert はマルチモーダル マスク モデリングでは良好なパフォーマンスを発揮し、ほとんどのベンチマーク タスクで Babylm ベースラインを上回っていますが、複雑な目標を最適化し、テキストのみの Whisbert ベースラインを上回るパフォーマンスを発揮するのに苦労していることがわかりました。

要約(オリジナル)

Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text–audio and introduce Whisbert, which is inspired by the text–image approach of FLAVA \citep{singh_flava_2022}. In accordance with Babylm \citep{warstadt2023papers} guidelines, we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People’s Speech dataset \citep{galvez_peoples_2021}. To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.

arxiv情報

著者 Lukas Wolf,Klemen Kotar,Greta Tuckute,Eghbal Hosseini,Tamar Regev,Ethan Wilcox,Alex Warstadt
発行日 2023-12-05 18:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク