ProbGate at EHRSQL 2024: Enhancing SQL Query Generation Accuracy through Probabilistic Threshold Filtering and Error Handling

要約

最近、深層学習ベースの言語モデルにより、テキストから SQL へのタスクが大幅に強化され、医療分野での患者記録の取得に有望なアプリケーションが登場しました。
このようなアプリケーションにおける注目すべき課題の 1 つは、答えられないクエリを識別することです。
微調整モデルを通じて、医療記録の問い合わせを SQL クエリに変換する実現可能性を実証します。
さらに、答えられない結果を識別して除外するためのエントロピー ベースの方法を導入します。
ログ確率ベースの分散を通じて信頼性の低い SQL をフィルタリングすることで結果の品質をさらに高め、実際のデータベースでクエリを実行することで文法エラーやスキーマ エラーを軽減します。
我々の手法は、モデルのパラメータにアクセスできない場合でも広く利用できる、答えられない質問をフィルタリングすることができ、実際に効果的に利用できることを実験的に検証しました。

要約(オリジナル)

Recently, deep learning-based language models have significantly enhanced text-to-SQL tasks, with promising applications in retrieving patient records within the medical domain. One notable challenge in such applications is discerning unanswerable queries. Through fine-tuning model, we demonstrate the feasibility of converting medical record inquiries into SQL queries. Additionally, we introduce an entropy-based method to identify and filter out unanswerable results. We further enhance result quality by filtering low-confidence SQL through log probability-based distribution, while grammatical and schema errors are mitigated by executing queries on the actual database. We experimentally verified that our method can filter unanswerable questions, which can be widely utilized even when the parameters of the model are not accessible, and that it can be effectively utilized in practice.

arxiv情報

著者 Sangryul Kim,Donghee Han,Sehyun Kim
発行日 2024-04-25 14:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク