要約
最近、情報検索を大規模な言語モデル(LLM)に組み込むことにかなりの関心がありました。
動的に拡張する外部のテキストから検索すると、モデルが現在のイベントを組み込むことができ、エピソード記憶の形態と見なすことができます。
ここでは、外部コーパスを半構造化された「原子事実」に前処理すると、検索がより効率的になることを示します。
より具体的には、取得したテキストの量が限られている場合、特定の形式の原子ファクトがさまざまな質問に答えるタスクのパフォーマンスを改善することを実証します。
検索の量を制限すると、コンテキストのサイズが減り、推論効率が向上します。
要約(オリジナル)
There has recently been considerable interest in incorporating information retrieval into large language models (LLMs). Retrieval from a dynamically expanding external corpus of text allows a model to incorporate current events and can be viewed as a form of episodic memory. Here we demonstrate that pre-processing the external corpus into semi-structured ”atomic facts” makes retrieval more efficient. More specifically, we demonstrate that our particular form of atomic facts improves performance on various question answering tasks when the amount of retrieved text is limited. Limiting the amount of retrieval reduces the size of the context and improves inference efficiency.
arxiv情報
著者 | Yanhong Li,David Yunis,David McAllester,Jiawei Zhou |
発行日 | 2025-03-25 11:48:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google