DBRouting: Routing End User Queries to Databases for Answerability

要約

多くの場合、エンタープライズレベルのデータは複数のソースに分配され、知識リクエストに関連する情報を含む正しいデータソースを特定することは基本的な課題です。
この作業では、データソースがデータベースである適切なデータソースにエンドユーザークエリをルーティングするという新しいタスクを定義します。
NLからSQLのセマンティック解析用に設計された既存のデータセットを拡張することにより、データセットを合成します。
オープンソースLLMSを使用して、トレーニングデータを微調整した事前訓練とタスク固有の埋め込みの両方を使用して、これらのデータセットのベースラインを作成します。
これらのベースラインを使用すると、オープンソースLLMは埋め込みベースのアプローチよりも優れたパフォーマンスを発揮しますが、トークンの長さの制限に悩まされていることを示しています。
埋め込みベースのアプローチは、タスク固有の微調整の恩恵を受けるため、トレーニング用のデータベース固有の質問に関してデータが可用性になった場合です。
さらに、タスクはより困難になることがわかります(i)データソースの数が増加すると、(ii)ドメインの観点からデータソースがより近く、(iii)その解釈に必要な外部ドメイン知識のないデータベースがあることがわかります。
エンティティおよび(iv)曖昧で複雑なクエリを備えた(iv)適切なソースへのルーティングのためのデータソースまたは論理的推論のより細かい理解が必要です。
これには、タスクに対処するために、より洗練されたソリューションを開発する必要性が必要です。

要約(オリジナル)

Enterprise level data is often distributed across multiple sources and identifying the correct set-of data-sources with relevant information for a knowledge request is a fundamental challenge. In this work, we define the novel task of routing an end-user query to the appropriate data-source, where the data-sources are databases. We synthesize datasets by extending existing datasets designed for NL-to-SQL semantic parsing. We create baselines on these datasets by using open-source LLMs, using both pre-trained and task specific embeddings fine-tuned using the training data. With these baselines we demonstrate that open-source LLMs perform better than embedding based approach, but suffer from token length limitations. Embedding based approaches benefit from task specific fine-tuning, more so when there is availability of data in terms of database specific questions for training. We further find that the task becomes more difficult (i) with an increase in the number of data-sources, (ii) having data-sources closer in terms of their domains,(iii) having databases without external domain knowledge required to interpret its entities and (iv) with ambiguous and complex queries requiring more fine-grained understanding of the data-sources or logical reasoning for routing to an appropriate source. This calls for the need for developing more sophisticated solutions to better address the task.

arxiv情報

著者 Priyangshu Mandal,Manasi Patwardhan,Mayur Patidar,Lovekesh Vig
発行日 2025-01-28 10:16:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク