From Matching to Generation: A Survey on Generative Information Retrieval

要約

情報検索 (IR) システムは、ユーザーが情報にアクセスするための重要なツールであり、検索エンジン、質問応答、推奨システムなどのシナリオに広く適用されています。
従来の IR 手法は、文書のランク付けされたリストを返す類似性照合に基づいており、情報取得の信頼できる手段として長年にわたって IR 分野を支配してきました。
事前トレーニング済み言語モデルの進歩に伴い、生成的情報検索 (GenIR) が新しいパラダイムとして台頭し、近年ますます注目を集めています。
現在、GenIR の研究は、生成的文書検索 (GR) と信頼性の高い応答生成の 2 つの側面に分類できます。
GR は、文書を記憶するために生成モデルのパラメーターを活用し、明示的なインデックス付けを行わずに関連する文書識別子を直接生成することで検索を可能にします。
一方、信頼性の高い応答生成では、言語モデルを使用してユーザーが求める情報を直接生成し、ドキュメントの粒度や関連性の照合という点で従来の IR の制限を打ち破り、柔軟性、効率性、創造性を高め、実際のニーズをよりよく満たすことができます。
この論文は、GenIR における最新の研究の進歩を体系的にレビューすることを目的としています。
モデルトレーニング、文書識別子、増分学習、下流タスク適応、マルチモーダルGR、生成的推奨に関するGRの進歩と、内部知識の記憶、外部知識の増強、応答生成の側面における信頼性の高い応答生成の進歩を要約します。
引用と個人情報アシスタント付き。
また、GenIR システムの評価、課題、将来の展望についてもレビューします。
このレビューは、GenIR 分野の研究者に包括的な参考資料を提供し、この分野のさらなる発展を促すことを目的としています。

要約(オリジナル)

Information Retrieval (IR) systems are crucial tools for users to access information, widely applied in scenarios like search engines, question answering, and recommendation systems. Traditional IR methods, based on similarity matching to return ranked lists of documents, have been reliable means of information acquisition, dominating the IR field for years. With the advancement of pre-trained language models, generative information retrieval (GenIR) has emerged as a novel paradigm, gaining increasing attention in recent years. Currently, research in GenIR can be categorized into two aspects: generative document retrieval (GR) and reliable response generation. GR leverages the generative model’s parameters for memorizing documents, enabling retrieval by directly generating relevant document identifiers without explicit indexing. Reliable response generation, on the other hand, employs language models to directly generate the information users seek, breaking the limitations of traditional IR in terms of document granularity and relevance matching, offering more flexibility, efficiency, and creativity, thus better meeting practical needs. This paper aims to systematically review the latest research progress in GenIR. We will summarize the advancements in GR regarding model training, document identifier, incremental learning, downstream tasks adaptation, multi-modal GR and generative recommendation, as well as progress in reliable response generation in aspects of internal knowledge memorization, external knowledge augmentation, generating response with citations and personal information assistant. We also review the evaluation, challenges and future prospects in GenIR systems. This review aims to offer a comprehensive reference for researchers in the GenIR field, encouraging further development in this area.

arxiv情報

著者 Xiaoxi Li,Jiajie Jin,Yujia Zhou,Yuyao Zhang,Peitian Zhang,Yutao Zhu,Zhicheng Dou
発行日 2024-04-23 09:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク