SUQL: Conversational Search over Structured and Unstructured Data with Large Language Models


ほとんどの会話エージェントはフリーテキストまたは構造化された知識に基づいていますが、多くの知識コーパスはハイブリッド ソースで構成されています。
この論文では、SUQL (構造化および非構造化クエリ言語) と呼ばれる私たちが開発した言語を通じて、大規模な知識コーパスのハイブリッド データ アクセスの完全な汎用性をサポートする最初の会話エージェントを紹介します。
具体的には、SUQL はフリーテキスト プリミティブ (要約と回答) を使用して SQL を拡張するため、形式的、簡潔、正確、および解釈可能な表記法で任意に構造化データ アクセスを使用して情報検索を構成できます。
SUQL では、ハイブリッド データ ソースを処理できる、コンテキスト内学習を備えた最初のセマンティック パーサーである LLM を提案します。
私たちのコンテキスト内学習ベースのアプローチを HybridQA データセットに適用すると、62,000 のデータ サンプルでトレーニングされた SOTA の完全一致は 8.9% 以内、F1 は 7.1% 以内になります。
Yelp は、構造化データと非構造化データを備えた大規模な実際のレストランのナレッジ ベースであり、クラウドソーシングされた質問と会話で構成されるデータセットを紹介します。
SUQL に基づく少数ショット会話エージェントは、すべてのユーザー要件を満たすエンティティを 90.3% の確率で検出するのに対し、線形化に基づくベースラインの場合は 63.4% であることを示します。


While most conversational agents are grounded on either free-text or structured knowledge, many knowledge corpora consist of hybrid sources. This paper presents the first conversational agent that supports the full generality of hybrid data access for large knowledge corpora, through a language we developed called SUQL (Structured and Unstructured Query Language). Specifically, SUQL extends SQL with free-text primitives (summary and answer), so information retrieval can be composed with structured data accesses arbitrarily in a formal, succinct, precise, and interpretable notation. With SUQL, we propose the first semantic parser, an LLM with in-context learning, that can handle hybrid data sources. Our in-context learning-based approach, when applied to the HybridQA dataset, comes within 8.9% exact match and 7.1% F1 of the SOTA, which was trained on 62K data samples. More significantly, unlike previous approaches, our technique is applicable to large databases and free-text corpora. We introduce a dataset consisting of crowdsourced questions and conversations on Yelp, a large, real restaurant knowledge base with structured and unstructured data. We show that our few-shot conversational agent based on SUQL finds an entity satisfying all user requirements 90.3% of the time, compared to 63.4% for a baseline based on linearization.


著者 Shicheng Liu,Jialiang Xu,Wesley Tjangnaka,Sina J. Semnani,Chen Jie Yu,Monica S. Lam
発行日 2024-03-13 17:07:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.PL パーマリンク