dIR — Discrete Information Retrieval: Conversational Search over Unstructured (and Structured) Data with Large Language Models

要約

データは構造化形式と非構造化形式の両方で保存されます。
自然言語会話を強化するために両方をクエリすることは困難です。
この文書では、フリー テキストと構造化された知識の両方を照会するための統合インターフェイスを提供する dIR (離散情報検索) を紹介します。
具体的には、大規模言語モデル (LLM) がテキストを表現力豊かな表現に変換します。
テキストが列形式に抽出された後、自然言語を SQL に変換する LLM を使用して、テキストから SQL へのセマンティック パーサーを介してクエリを実行できます。
必要に応じて、そのような会話は、複数ステップの推論会話エージェントによって実行することができます。
私たちは独自の質問/回答データセットを介してアプローチを検証し、従来の微調整された高密度埋め込みモデルベースの情報検索 (IR) および SQL ベースと比較した場合、dIR はフリーテキストに対するまったく新しいクラスのクエリを可能にするという結論に達しました。
ナレッジベース (KB)。
十分に複雑なクエリの場合、他の方法では成功できない場合でも、dIR は成功する可能性があります。

要約(オリジナル)

Data is stored in both structured and unstructured form. Querying both, to power natural language conversations, is a challenge. This paper introduces dIR, Discrete Information Retrieval, providing a unified interface to query both free text and structured knowledge. Specifically, a Large Language Model (LLM) transforms text into expressive representation. After the text is extracted into columnar form, it can then be queried via a text-to-SQL Semantic Parser, with an LLM converting natural language into SQL. Where desired, such conversation may be effected by a multi-step reasoning conversational agent. We validate our approach via a proprietary question/answer data set, concluding that dIR makes a whole new class of queries on free text possible when compared to traditionally fine-tuned dense-embedding-model-based Information Retrieval (IR) and SQL-based Knowledge Bases (KB). For sufficiently complex queries, dIR can succeed where no other method stands a chance.

arxiv情報

著者 Pablo M. Rodriguez Bertorello,Jean Rodmond Junior Laguerre
発行日 2023-12-20 18:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR, cs.LG パーマリンク