Calibrated Interpretation: Confidence Estimation in Semantic Parsing


セマンティック解析が現実世界でアクションを実行することを目的としているという事実は、安全なシステムの開発を動機付けます。これにより、キャリブレーションの測定 (安全性の中心的なコンポーネント) が特に重要になります。
4 つの一般的なセマンティック解析データセット全体で共通の生成モデルのキャリブレーションを調査し、モデルとデータセットによって異なることがわかりました。
次に、キャリブレーション エラーに関連する要因を分析し、2 つの解析データセットの新しい信頼度ベースのチャレンジ分割をリリースします。
セマンティック解析評価にキャリブレーションを含めることを容易にするために、キャリブレーション メトリックを計算するためのライブラリをリリースします。


Sequence generation models are increasingly being used to translate language into executable programs, i.e. to perform executable semantic parsing. The fact that semantic parsing aims to execute actions in the real world motivates developing safe systems, which in turn makes measuring calibration — a central component to safety — particularly important. We investigate the calibration of common generation models across four popular semantic parsing datasets, finding that it varies across models and datasets. We then analyze factors associated with calibration error and release new confidence-based challenge splits of two parsing datasets. To facilitate the inclusion of calibration in semantic parsing evaluations, we release a library for computing calibration metrics.


著者 Elias Stengel-Eskin,Benjamin Van Durme
発行日 2023-03-29 15:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク