MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

要約

大規模言語モデル(LLM)は、自然言語処理における進歩で大きな注目を集めており、テキスト理解と生成において比類のない能力を示している。しかし、首尾一貫したテキスト物語と画像の同時生成は、依然として発展途上のフロンティアである。そこで我々は、画像とテキストを調和させるための架け橋として機能する「生成的ボーケン」の概念に基づく、革新的な視覚と言語のインターリーブ生成技術を紹介する。我々のアプローチは、無記述マルチモーダル生成に焦点を当てた特徴的な2段階の学習戦略によって特徴付けられる。モデルの完全性を強化するために、分類器を使わないガイダンスが組み込まれ、画像生成におけるボーケンの有効性を高めている。我々のモデルであるMiniGPT-5は、MMDialogデータセットにおいてベースラインのDivterモデルに対して大幅な改善を示し、VISTデータセットにおける人間評価において一貫して優れた、あるいは同等のマルチモーダル出力を提供し、多様なベンチマークにおけるその有効性を強調している。

要約(オリジナル)

Large Language Models (LLMs) have garnered significant attention for their advancements in natural language processing, demonstrating unparalleled prowess in text comprehension and generation. Yet, the simultaneous generation of images with coherent textual narratives remains an evolving frontier. In response, we introduce an innovative interleaved vision-and-language generation technique anchored by the concept of ‘generative vokens,’ acting as the bridge for harmonized image-text outputs. Our approach is characterized by a distinctive two-staged training strategy focusing on description-free multimodal generation, where the training requires no comprehensive descriptions of images. To bolster model integrity, classifier-free guidance is incorporated, enhancing the effectiveness of vokens on image generation. Our model, MiniGPT-5, exhibits substantial improvement over the baseline Divter model on the MMDialog dataset and consistently delivers superior or comparable multimodal outputs in human evaluations on the VIST dataset, highlighting its efficacy across diverse benchmarks.

arxiv情報

著者 Kaizhi Zheng,Xuehai He,Xin Eric Wang
発行日 2023-10-03 17:49:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク