AMBROSIA: A Benchmark for Parsing Ambiguous Questions into Database Queries

要約

実用的なセマンティックパーサーは、ユーザーの発話が曖昧であっても、ユーザーの発話を理解し、それを実行可能プログラムにマッピングすることが期待されています。
新しいベンチマーク AMBROSIA を紹介します。これは、あいまいなリクエストを認識して解釈できる text-to-SQL パーサーの開発に情報を与え、その開発に刺激を与えることを願っています。
私たちのデータセットには、3 つの異なるタイプの曖昧さ (スコープの曖昧さ、添付ファイルの曖昧さ、曖昧さ)、その解釈、および対応する SQL クエリを示す質問が含まれています。
いずれの場合も、データベース コンテキストが提供されている場合でも、あいまいさは残ります。
これは、データベースをゼロから制御して生成するという新しいアプローチによって実現されます。
AMBROSIA でさまざまな LLM のベンチマークを行ったところ、最も高度なモデルでも質問のあいまいさを特定して解釈するのに苦労していることが明らかになりました。

要約(オリジナル)

Practical semantic parsers are expected to understand user utterances and map them to executable programs, even when these are ambiguous. We introduce a new benchmark, AMBROSIA, which we hope will inform and inspire the development of text-to-SQL parsers capable of recognizing and interpreting ambiguous requests. Our dataset contains questions showcasing three different types of ambiguity (scope ambiguity, attachment ambiguity, and vagueness), their interpretations, and corresponding SQL queries. In each case, the ambiguity persists even when the database context is provided. This is achieved through a novel approach that involves controlled generation of databases from scratch. We benchmark various LLMs on AMBROSIA, revealing that even the most advanced models struggle to identify and interpret ambiguity in questions.

arxiv情報

著者 Irina Saparina,Mirella Lapata
発行日 2024-10-31 13:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク