TEAL: Tokenize and Embed ALL for Multi-modal Large Language Models

要約

近年、マルチモーダル大規模言語モデル(MM-LLM)は飛躍的な進歩を遂げつつあるが、マルチモーダル入力間の相互作用や非テキストモダリティでの生成を効率的にモデル化することに苦慮している。本研究では、TEAL (Tokenize and Embed ALl)}を提案する。TEALは、任意のモダリティからの入力をトークン列として扱い、全てのモダリティのための結合埋め込み空間を学習するアプローチである。具体的には、TEALは、あらゆるモダリティからの入力に対して、まず、市販のトークナイザを用いてトークン列に離散化し、学習可能な埋め込み行列を用いてトークン列を結合埋め込み空間に埋め込む。MM-LLMは、テキストLLMと同様に、マルチモーダルトークンを自己回帰的に予測するだけでよい。最後に、予測されたトークン列に基づいて各モダリティの出力を生成するために、対応するデトーケナイザが適用される。TEALは結合埋め込み空間を用いることで、画像や音声などの非テキストモダリティの理解と生成の両方のタスクをフローズンLLMに実行させることができる。従って、テキストLLMはインターフェースとして働くだけで、テキスト理解と生成において高い性能を維持することができる。実験によれば、TEALはマルチモーダル理解において大幅な改善を達成し、マルチモーダル生成のためのシンプルなスキームを実装している。

要約(オリジナル)

Despite Multi-modal Large Language Models (MM-LLMs) have made exciting strides recently, they are still struggling to efficiently model the interactions among multi-modal inputs and the generation in non-textual modalities. In this work, we propose TEAL (Tokenize and Embed ALl)}, an approach to treat the input from any modality as a token sequence and learn a joint embedding space for all modalities. Specifically, for the input from any modality, TEAL first discretizes it into a token sequence with the off-the-shelf tokenizer and embeds the token sequence into a joint embedding space with a learnable embedding matrix. MM-LLMs just need to predict the multi-modal tokens autoregressively as the textual LLMs do. Finally, the corresponding de-tokenizer is applied to generate the output in each modality based on the predicted token sequence. With the joint embedding space, TEAL enables the frozen LLMs to perform both understanding and generation tasks involving non-textual modalities, such as image and audio. Thus, the textual LLM can just work as an interface and maintain its high performance in textual understanding and generation. Experiments show that TEAL achieves substantial improvements in multi-modal understanding, and implements a simple scheme for multi-modal generations.

arxiv情報

著者 Zhen Yang,Yingxue Zhang,Fandong Meng,Jie Zhou
発行日 2024-01-04 07:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク