Retrieving Multimodal Information for Augmented Generation: A Survey

要約

この調査では、マルチモーダルな知識を取得して生成モデルを支援および強化する方法を確認します。
このグループの作品は、画像、コード、表、グラフ、音声などの外部ソースからグラウンディング コンテキストを取得することに焦点を当てています。
マルチモーダル学習とジェネレーティブ AI がますます影響力を持つようになるにつれて、そのような検索拡張は、事実性、推論、解釈可能性、堅牢性などの重要な懸念に対する有望なソリューションを提供します。
さまざまなモダリティでの検索増強生成の詳細なレビューを提供し、潜在的な将来の方向性について説明します。
これは新興分野であるため、新しい論文や方法を追加し続けています。

要約(オリジナル)

In this survey, we review methods that retrieve multimodal knowledge to assist and augment generative models. This group of works focuses on retrieving grounding contexts from external sources, including images, codes, tables, graphs, and audio. As multimodal learning and generative AI have become more and more impactful, such retrieval augmentation offers a promising solution to important concerns such as factuality, reasoning, interpretability, and robustness. We provide an in-depth review of retrieval-augmented generation in different modalities and discuss potential future directions. As this is an emerging field, we continue to add new papers and methods.

arxiv情報

著者 Ruochen Zhao,Hailin Chen,Weishi Wang,Fangkai Jiao,Xuan Long Do,Chengwei Qin,Bosheng Ding,Xiaobao Guo,Minzhi Li,Xingxuan Li,Shafiq Joty
発行日 2023-03-20 05:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク