要約
大規模言語モデル (LLM) は、主にテキストベースのデータセットでトレーニングされ、テキスト出力を介した複雑な言語命令の理解と実行において優れた能力を示します。
ただし、テキスト以外の生成を要求されると失敗します。
同時に、テキストから画像へのモダリティ変換モデルは、高品質の画像を生成するにもかかわらず、広範なテキストの事前トレーニングが不足しているという問題があります。
結果として、これらのモデルは、より複雑な命令を理解するのではなく、特定の画像の説明にのみ対応できます。
このギャップを埋めるために、テキストベースの LLM をマルチモーダルな LLM に進化させる、モダリティ変換の観点からの新しいアプローチ \methodname を提案します。
具体的には、最小限のデータセットを使用して、指示に従って意図された出力モダリティを認識するように LLM に指示します。
その結果、適応された LLM は、モデル動物園からさまざまな既製のモダリティ変換モデルを効果的に呼び出して、非テキスト応答を生成できます。
これにより、通常、膨大な量のペアになったマルチモーダル データを必要とする複雑な事前トレーニングの必要性が回避され、同時に LLM の広範な知識と高品質の生成モデルの機能が継承されます。
適応したマルチモーダル LLM を従来の対応物と評価および比較するために、多様なモダリティ出力を要求するマルチモーダル命令ベンチマークを構築しました。
実験結果は、最小限のトレーニングで LLM を非テキスト応答の要求を理解するように都合よく適応させることができ、マルチモーダル シナリオでより高い柔軟性を実現できることを明らかにしました。
コードとデータは https://github.com/xinke-wang/SwitchGPT で利用可能になります。
要約(オリジナル)
Large Language Models (LLMs), primarily trained on text-based datasets, exhibit exceptional proficiencies in understanding and executing complex linguistic instructions via text outputs. However, they falter when requests to generate non-text ones. Concurrently, modality conversion models, such as text-to-image, despite generating high-quality images, suffer from a lack of extensive textual pretraining. As a result, these models are only capable of accommodating specific image descriptions rather than comprehending more complex instructions. To bridge this gap, we propose a novel approach, \methodname, from a modality conversion perspective that evolves a text-based LLM into a multi-modal one. We specifically employ a minimal dataset to instruct LLMs to recognize the intended output modality as directed by the instructions. Consequently, the adapted LLM can effectively summon various off-the-shelf modality conversion models from the model zoos to generate non-text responses. This circumvents the necessity for complicated pretraining that typically requires immense quantities of paired multi-modal data, while simultaneously inheriting the extensive knowledge of LLMs and the ability of high-quality generative models. To evaluate and compare the adapted multi-modal LLM with its traditional counterparts, we have constructed a multi-modal instruction benchmark that solicits diverse modality outputs. The experiment results reveal that, with minimal training, LLMs can be conveniently adapted to comprehend requests for non-text responses, thus achieving higher flexibility in multi-modal scenarios. Code and data will be made available at https://github.com/xinke-wang/SwitchGPT.
arxiv情報
著者 | Xinyu Wang,Bohan Zhuang,Qi Wu |
発行日 | 2023-09-14 11:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google