要約
本研究では、画像や動画などの非言語的モダリティを含む理解・生成タスクをフローズンLLMに実行させるためのSemantic Pyramid AutoEncoder (SPAE)を紹介する。SPAEは、生のピクセルと、LLMの語彙から抽出された解釈可能な語彙トークン(または単語)を変換する。結果として得られるトークンは、意味的な意味と視覚的再構成に必要なきめ細かな詳細の両方を捉え、視覚コンテンツをLLMが理解可能な言語に効果的に変換し、幅広いマルチモーダルタスクの実行を可能にする。本アプローチは、凍結したPaLM 2とGPT 3.5を用いて、様々な画像理解・生成タスクのコンテクスト内学習実験により検証された。本手法は、凍結されたLLMが画像コンテンツを生成することを可能にする最初の試みであり、同時に、同じ設定下で、画像理解タスクにおける最先端の性能を25%以上上回ることに成功した。
要約(オリジナル)
In this work, we introduce Semantic Pyramid AutoEncoder (SPAE) for enabling frozen LLMs to perform both understanding and generation tasks involving non-linguistic modalities such as images or videos. SPAE converts between raw pixels and interpretable lexical tokens (or words) extracted from the LLM’s vocabulary. The resulting tokens capture both the semantic meaning and the fine-grained details needed for visual reconstruction, effectively translating the visual content into a language comprehensible to the LLM, and empowering it to perform a wide array of multimodal tasks. Our approach is validated through in-context learning experiments with frozen PaLM 2 and GPT 3.5 on a diverse set of image understanding and generation tasks. Our method marks the first successful attempt to enable a frozen LLM to generate image content while surpassing state-of-the-art performance in image understanding tasks, under the same setting, by over 25%.
arxiv情報
著者 | Lijun Yu,Yong Cheng,Zhiruo Wang,Vivek Kumar,Wolfgang Macherey,Yanping Huang,David A. Ross,Irfan Essa,Yonatan Bisk,Ming-Hsuan Yang,Kevin Murphy,Alexander G. Hauptmann,Lu Jiang |
発行日 | 2023-07-03 08:13:19+00:00 |
arxivサイト | arxiv_id(pdf) |