Improving Generalization in Semantic Parsing by Increasing Natural Language Variation

要約

Text-to-SQL セマンティック解析は近年大幅な進歩を遂げており、さまざまなモデルが困難な Spider ベンチマークで優れたパフォーマンスを実証しています。
ただし、これらのモデルは、以前に (正確に) 解析された式の小さな混乱に直面した場合でも、一般化するのに苦労することが多いことも示されています。
これは主に、Spider の質問の言語形式が過度に具体的で不自然で、バリエーションが限られていることが原因です。
この研究では、データ拡張を使用して、自然言語の変動に対する text-to-SQL パーサーの堅牢性を強化します。
既存のアプローチは、Spider でトレーニングされたモデルを介して質問の再定式化を生成するか、ローカルな変更のみを導入します。
対照的に、私たちは大規模な言語モデルの機能を活用して、より現実的で多様な質問を生成します。
わずかなプロンプトを使用するだけで、Spider での質問数が 2 倍に増加しました。
この拡張されたデータセットでのトレーニングにより、堅牢性ベンチマークやドメイン外データを含むさまざまな評価セットで大幅な改善がもたらされます。

要約(オリジナル)

Text-to-SQL semantic parsing has made significant progress in recent years, with various models demonstrating impressive performance on the challenging Spider benchmark. However, it has also been shown that these models often struggle to generalize even when faced with small perturbations of previously (accurately) parsed expressions. This is mainly due to the linguistic form of questions in Spider which are overly specific, unnatural, and display limited variation. In this work, we use data augmentation to enhance the robustness of text-to-SQL parsers against natural language variations. Existing approaches generate question reformulations either via models trained on Spider or only introduce local changes. In contrast, we leverage the capabilities of large language models to generate more realistic and diverse questions. Using only a few prompts, we achieve a two-fold increase in the number of questions in Spider. Training on this augmented dataset yields substantial improvements on a range of evaluation sets, including robustness benchmarks and out-of-domain data.

arxiv情報

著者 Irina Saparina,Mirella Lapata
発行日 2024-02-13 18:48:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク