A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT


最近、ChatGPT は、DALL-E-2 や Codex とともに、社会から大きな注目を集めています。
実際、ChatGPT やその他のジェネレーティブ AI (GAI) 技術は、AI モデルによる画像、音楽、自然言語などのデジタル コンテンツの作成を含む人工知能生成コンテンツ (AIGC) のカテゴリに属します。
AIGC の目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質のコンテンツをより速いペースで作成できるようにすることです。
AIGC は、人間の指示から意図情報を抽出・理解し、その知識と意図情報に基づいてコンテンツを生成することで実現されます。
近年、AIGC では大規模モデルがますます重要になってきています。これは、意図抽出が向上し、生成結果が向上するためです。
この調査では、生成モデルの歴史、基本コンポーネント、ユニモーダル相互作用およびマルチモーダル相互作用からの AIGC の最近の進歩に関する包括的なレビューを提供します。
最後に、AIGC における現在の未解決の問題と将来の課題について説明します。


Recently, ChatGPT, along with DALL-E-2 and Codex,has been gaining significant attention from society. As a result, many individuals have become interested in related resources and are seeking to uncover the background and secrets behind its impressive performance. In fact, ChatGPT and other Generative AI (GAI) techniques belong to the category of Artificial Intelligence Generated Content (AIGC), which involves the creation of digital content, such as images, music, and natural language, through AI models. The goal of AIGC is to make the content creation process more efficient and accessible, allowing for the production of high-quality content at a faster pace. AIGC is achieved by extracting and understanding intent information from instructions provided by human, and generating the content according to its knowledge and the intent information. In recent years, large-scale models have become increasingly important in AIGC as they provide better intent extraction and thus, improved generation results. With the growth of data and the size of the models, the distribution that the model can learn becomes more comprehensive and closer to reality, leading to more realistic and high-quality content generation. This survey provides a comprehensive review on the history of generative models, and basic components, recent advances in AIGC from unimodal interaction and multimodal interaction. From the perspective of unimodality, we introduce the generation tasks and relative models of text and image. From the perspective of multimodality, we introduce the cross-application between the modalities mentioned above. Finally, we discuss the existing open problems and future challenges in AIGC.


著者 Yihan Cao,Siyu Li,Yixin Liu,Zhiling Yan,Yutong Dai,Philip S. Yu,Lichao Sun
発行日 2023-03-07 20:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク