Large Language Models for Information Retrieval: A Survey

要約

情報取得の主要な手段として、検索エンジンなどの情報検索 (IR) システムが私たちの日常生活に組み込まれています。
これらのシステムは、対話、質問応答、および推奨システムのコンポーネントとしても機能します。
IR の軌跡は、用語ベースの手法から始まり、高度なニューラル モデルとの統合まで動的に進化してきました。
ニューラル モデルは、複雑な文脈上の信号や意味論的なニュアンスを捕捉し、それによって IR 環境を再形成することに優れていますが、データ不足、解釈可能性、文脈上もっともらしいが潜在的に不正確な応答の生成などの課題に依然として直面しています。
この進化には、従来の手法 (迅速な応答を備えた用語ベースのスパース検索手法など) と最新のニューラル アーキテクチャ (強力な言語理解能力を備えた言語モデルなど) の両方の組み合わせが必要です。
一方、ChatGPT や GPT-4 に代表される大規模言語モデル (LLM) の出現は、その優れた言語理解、生成、一般化、および推論能力により、自然言語処理に革命をもたらしました。
その結果、最近の研究では、LLM を活用して IR システムを改善することが試みられています。
この研究の軌跡が急速に進化していることを考慮すると、既存の方法論を統合し、包括的な概要を通じて微妙な洞察を提供する必要があります。
この調査では、クエリ リライター、リトリーバー、リランカー、リーダーなどの重要な側面を含め、LLM と IR システムの合流点を詳しく調査します。
さらに、この拡大する分野内で検索エージェントなどの有望な方向性を模索します。

要約(オリジナル)

As a primary means of information acquisition, information retrieval (IR) systems, such as search engines, have integrated themselves into our daily lives. These systems also serve as components of dialogue, question-answering, and recommender systems. The trajectory of IR has evolved dynamically from its origins in term-based methods to its integration with advanced neural models. While the neural models excel at capturing complex contextual signals and semantic nuances, thereby reshaping the IR landscape, they still face challenges such as data scarcity, interpretability, and the generation of contextually plausible yet potentially inaccurate responses. This evolution requires a combination of both traditional methods (such as term-based sparse retrieval methods with rapid response) and modern neural architectures (such as language models with powerful language understanding capacity). Meanwhile, the emergence of large language models (LLMs), typified by ChatGPT and GPT-4, has revolutionized natural language processing due to their remarkable language understanding, generation, generalization, and reasoning abilities. Consequently, recent research has sought to leverage LLMs to improve IR systems. Given the rapid evolution of this research trajectory, it is necessary to consolidate existing methodologies and provide nuanced insights through a comprehensive overview. In this survey, we delve into the confluence of LLMs and IR systems, including crucial aspects such as query rewriters, retrievers, rerankers, and readers. Additionally, we explore promising directions, such as search agents, within this expanding field.

arxiv情報

著者 Yutao Zhu,Huaying Yuan,Shuting Wang,Jiongnan Liu,Wenhan Liu,Chenlong Deng,Haonan Chen,Zheng Liu,Zhicheng Dou,Ji-Rong Wen
発行日 2024-09-04 11:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク