Retrieving Multimodal Information for Augmented Generation: A Survey

要約

大規模言語モデル(LLM)が普及するにつれ、LLMの生成能力を補強するためにマルチモダリティを使用する重要な傾向が現れてきた。しかし、どの段階で、どのように異なるモダリティを取り入れるかについての統一的な認識が欠けている。本サーベイでは、画像、コード、表、グラフ、音声など、様々な形式のマルチモーダル知識を検索することで、生成モデルを支援・補強する手法をレビューする。このような手法は、事実性、推論、解釈可能性、頑健性といった重要な懸念に対する有望な解決策を提供する。綿密なレビューを提供することで、このサーベイは、研究者に手法の応用に関するより深い理解を提供し、急成長するLLM分野に既存の手法を適応させることを促すことが期待される。

要約(オリジナル)

As Large Language Models (LLMs) become popular, there emerged an important trend of using multimodality to augment the LLMs’ generation ability, which enables LLMs to better interact with the world. However, there lacks a unified perception of at which stage and how to incorporate different modalities. In this survey, we review methods that assist and augment generative models by retrieving multimodal knowledge, whose formats range from images, codes, tables, graphs, to audio. Such methods offer a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. By providing an in-depth review, this survey is expected to provide scholars with a deeper understanding of the methods’ applications and encourage them to adapt existing techniques to the fast-growing field of LLMs.

arxiv情報

著者 Ruochen Zhao,Hailin Chen,Weishi Wang,Fangkai Jiao,Xuan Long Do,Chengwei Qin,Bosheng Ding,Xiaobao Guo,Minzhi Li,Xingxuan Li,Shafiq Joty
発行日 2023-12-01 02:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク