Querying Large Language Models with SQL

要約

多くのユースケースでは、情報はテキストで保存されますが、構造化データでは利用できません。
ただし、自然言語テキストからデータを抽出してスキーマに正確に適合させ、クエリを可能にするのは困難な作業です。
事前トレーニングされた大規模言語モデル (LLM) の台頭により、膨大なテキスト ドキュメントのコーパスから抽出された情報を保存して使用するための効果的なソリューションが登場しました。
したがって、SQL クエリを使用して、LLM 内の情報を利用することで、従来のデータベースでは取得できない広範囲のデータをカバーすることを想定しています。
このビジョンを実現するために、従来のデータベース アーキテクチャに基づくプロトタイプであるガロアを紹介しますが、基礎となる LLM をクエリするための新しい物理演算子を備えています。
主なアイデアは、LLM からデータを取得するプロンプトを使用してクエリ プランのいくつかの演算子を実行することです。
大規模なクラスの SQL クエリの場合、LLM をクエリすると、適切に構造化された関係が返され、有望な定性的な結果が得られます。
予備的な実験結果により、事前トレーニングされた LLM はデータベース システムの分野への有望な追加となり、ハイブリッド クエリ処理に新しい方向性をもたらします。
ただし、LLM を活用する DBMS を構築するために対処する必要があるいくつかの研究上の課題を特定します。
これらの課題の中には、NLP 文献の概念を統合する必要があるものもありますが、DB コミュニティに新しい研究手段を提供するものもあります。

要約(オリジナル)

In many use-cases, information is stored in text but not available in structured data. However, extracting data from natural language text to precisely fit a schema, and thus enable querying, is a challenging task. With the rise of pre-trained Large Language Models (LLMs), there is now an effective solution to store and use information extracted from massive corpora of text documents. Thus, we envision the use of SQL queries to cover a broad range of data that is not captured by traditional databases by tapping the information in LLMs. To ground this vision, we present Galois, a prototype based on a traditional database architecture, but with new physical operators for querying the underlying LLM. The main idea is to execute some operators of the the query plan with prompts that retrieve data from the LLM. For a large class of SQL queries, querying LLMs returns well structured relations, with encouraging qualitative results. Preliminary experimental results make pre-trained LLMs a promising addition to the field of database systems, introducing a new direction for hybrid query processing. However, we pinpoint several research challenges that must be addressed to build a DBMS that exploits LLMs. While some of these challenges necessitate integrating concepts from the NLP literature, others offer novel research avenues for the DB community.

arxiv情報

著者 Mohammed Saeed,Nicola De Cao,Paolo Papotti
発行日 2023-10-11 14:24:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB パーマリンク