要約
シーケンス生成モデルは、言語を実行可能なプログラムに変換する、つまり実行可能なセマンティック解析を実行するためにますます使用されています。
セマンティック解析が現実世界でアクションを実行することを目的としているという事実は、安全なシステムの開発を動機付けます。これにより、キャリブレーションの測定 (安全性の中心的なコンポーネント) が特に重要になります。
4 つの一般的なセマンティック解析データセット全体で共通の生成モデルのキャリブレーションを調査し、モデルとデータセットによって異なることがわかりました。
次に、キャリブレーション エラーに関連する要因を分析し、2 つの解析データセットの新しい信頼度ベースのチャレンジ分割をリリースします。
セマンティック解析評価にキャリブレーションを含めることを容易にするために、キャリブレーション メトリックを計算するためのライブラリをリリースします。
要約(オリジナル)
Sequence generation models are increasingly being used to translate language into executable programs, i.e. to perform executable semantic parsing. The fact that semantic parsing aims to execute actions in the real world motivates developing safe systems, which in turn makes measuring calibration — a central component to safety — particularly important. We investigate the calibration of common generation models across four popular semantic parsing datasets, finding that it varies across models and datasets. We then analyze factors associated with calibration error and release new confidence-based challenge splits of two parsing datasets. To facilitate the inclusion of calibration in semantic parsing evaluations, we release a library for computing calibration metrics.
arxiv情報
著者 | Elias Stengel-Eskin,Benjamin Van Durme |
発行日 | 2023-03-29 15:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google