Large Multimodal Models: Notes on CVPR 2023 Tutorial

要約

このチュートリアル ノートは、「Vision Foundation Models の最近の進歩」に関する CVPR 2023 チュートリアルの一部である「Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4」に関するプレゼンテーションを要約したものです。
チュートリアルは 3 つの部分で構成されています。
まず、命令調整された大規模マルチモーダル モデル (LMM) の研究を動機付けるために、視覚と言語モデリングのための最近の GPT のような大規模モデルの背景を紹介します。
前提条件として、大規模言語モデルにおける命令チューニングの基本について説明します。これはさらにマルチモーダル空間に拡張されます。
最後に、オープンソース リソースを使用してモデルのようなマルチモーダル GPT-4 の最小限のプロトタイプを構築する方法を示し、最近浮上したトピックを確認します。

要約(オリジナル)

This tutorial note summarizes the presentation on “Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4”, a part of CVPR 2023 tutorial on “Recent Advances in Vision Foundation Models”. The tutorial consists of three parts. We first introduce the background on recent GPT-like large models for vision-and-language modeling to motivate the research in instruction-tuned large multimodal models (LMMs). As a pre-requisite, we describe the basics of instruction-tuning in large language models, which is further extended to the multimodal space. Lastly, we illustrate how to build the minimum prototype of multimodal GPT-4 like models with the open-source resource, and review the recently emerged topics.

arxiv情報

著者 Chunyuan Li
発行日 2023-06-26 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク