You Only Read Once (YORO): Learning to Internalize Database Knowledge for Text-to-SQL

要約

テキストから SQL へのタスクは大幅に進歩しましたが、最近のソリューションではすべての質問に対して同じデータベース スキーマを繰り返しエンコードするため、不必要に高い推論コストが発生し、重要なデータベース知識が見落とされることがよくあります。
これらの問題に対処するために、私たちは You Only Read Once (YORO) を提案します。これは、トレーニング中にデータベースの知識を text-to-SQL モデルのパラメトリック知識に直接取り込み、推論中のスキーマ エンコーディングの必要性を排除する新しいパラダイムです。
YORO は入力トークンの長さを 66% ~ 98% 大幅に短縮します。
入力が短いにもかかわらず、私たちの実証結果は、YORO が 3 つのベンチマークで従来のシステムと競合するパフォーマンスを示し、さらに大規模なデータベースでも大幅に優れていることを示しています。
さらに、YORO は、略語などの難しい値の検索を伴う質問の処理にも優れています。

要約(オリジナル)

While significant progress has been made on the text-to-SQL task, recent solutions repeatedly encode the same database schema for every question, resulting in unnecessary high inference cost and often overlooking crucial database knowledge. To address these issues, we propose You Only Read Once (YORO), a novel paradigm that directly internalizes database knowledge into the parametric knowledge of a text-to-SQL model during training and eliminates the need for schema encoding during inference. YORO significantly reduces the input token length by 66%-98%. Despite its shorter inputs, our empirical results demonstrate YORO’s competitive performances with traditional systems on three benchmarks as well as its significant outperformance on large databases. Furthermore, YORO excels in handling questions with challenging value retrievals such as abbreviation.

arxiv情報

著者 Hideo Kobayashi,Wuwei Lan,Peng Shi,Shuaichen Chang,Jiang Guo,Henghui Zhu,Zhiguo Wang,Patrick Ng
発行日 2024-09-18 17:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク