要約
大規模言語モデル (LLM) の最近の進歩により、LLM とマルチモーダル学習を組み合わせることに関心が高まっています。
マルチモーダル大規模言語モデル (MLLM) に関するこれまでの調査は、主に理解に焦点を当てていました。
この調査では、画像、ビデオ、3D、オーディオなどのさまざまなドメインにわたるマルチモーダル生成について詳しく説明し、これらの分野におけるマイルストーン作品による注目すべき進歩に焦点を当てます。
具体的には、これらの研究で利用される手法とマルチモーダル データセットの背後にある主要な技術コンポーネントを徹底的に調査します。
さらに、人間とコンピューターの対話に既存の生成モデルを使用できる、ツールで拡張されたマルチモーダル エージェントについても詳しく調べます。
最後に、AI の安全性の進歩について包括的に議論し、新たなアプリケーションと将来の見通しについても調査します。
私たちの研究は、マルチモーダル生成の体系的かつ洞察力に富んだ概要を提供し、生成コンテンツ用人工知能 (AIGC) と世界モデルの開発を前進させることが期待されています。
すべての関連論文の厳選されたリストは、https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation で見つけることができます。
要約(オリジナル)
With the recent advancement in large language models (LLMs), there is a growing interest in combining LLMs with multimodal learning. Previous surveys of multimodal large language models (MLLMs) mainly focus on understanding. This survey elaborates on multimodal generation across different domains, including image, video, 3D, and audio, where we highlight the notable advancements with milestone works in these fields. Specifically, we exhaustively investigate the key technical components behind methods and multimodal datasets utilized in these studies. Moreover, we dig into tool-augmented multimodal agents that can use existing generative models for human-computer interaction. Lastly, we also comprehensively discuss the advancement in AI safety and investigate emerging applications as well as future prospects. Our work provides a systematic and insightful overview of multimodal generation, which is expected to advance the development of Artificial Intelligence for Generative Content (AIGC) and world models. A curated list of all related papers can be found at https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation
arxiv情報
著者 | Yingqing He,Zhaoyang Liu,Jingye Chen,Zeyue Tian,Hongyu Liu,Xiaowei Chi,Runtao Liu,Ruibin Yuan,Yazhou Xing,Wenhai Wang,Jifeng Dai,Yong Zhang,Wei Xue,Qifeng Liu,Yike Guo,Qifeng Chen |
発行日 | 2024-05-29 17:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google