Calibrated Interpretation: Confidence Estimation in Semantic Parsing



– シーケンス生成モデルは、言語を実行可能なプログラムに変換するために、つまり実行可能なセマンティック・パーシングを行うために使用されることが増えています。
– セマンティック・パーシングは現実世界でアクションを実行することを目的としているため、安全なシステムの開発が必要であり、そのためにはキャリブレーションの測定が特に重要です。
– 一般的な生成モデルのキャリブレーションについて、4つの人気のあるセマンティック・パーシングデータセットを検討し、モデルとデータセットによって異なることを発見しました。
– キャリブレーションエラーに関連する要因を分析し、2つのパーシングデータセットの信頼度ベースのチャレンジ分割を発表しました。
– セマンティック・パーシング評価にキャリブレーションを含めるために、キャリブレーションメトリックの計算に使用できるライブラリを公開しました。


Sequence generation models are increasingly being used to translate language into executable programs, i.e. to perform executable semantic parsing. The fact that semantic parsing aims to execute actions in the real world motivates developing safe systems, which in turn makes measuring calibration — a central component to safety — particularly important. We investigate the calibration of common generation models across four popular semantic parsing datasets, finding that it varies across models and datasets. We then analyze factors associated with calibration error and release new confidence-based challenge splits of two parsing datasets. To facilitate the inclusion of calibration in semantic parsing evaluations, we release a library for computing calibration metrics.


著者 Elias Stengel-Eskin,Benjamin Van Durme
発行日 2023-03-31 13:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク