要約
キャリブレーションされたモデルが、タスク指向の解析における一般的なトレードオフのバランスをとるのにどのように役立つかを示します。
シミュレートされたアノテーター・イン・ザ・ループの実験では、十分に調整された信頼スコアにより、コストとアノテーターの負荷のバランスを取り、少数の対話で精度を向上させることができることを示しています。
次に、ユーザビリティと安全性のトレードオフを最適化するために信頼スコアがどのように役立つかを調べます。
信頼度に基づくしきい値処理により、実行される信頼度の低い誤ったプログラムの数を大幅に減らすことができることを示しています。
ただし、これには使いやすさが犠牲になります。
使いやすさと安全性をより両立させたDidYouMeanシステムをご提案します。
要約(オリジナル)
We illustrate how a calibrated model can help balance common trade-offs in task-oriented parsing. In a simulated annotator-in-the-loop experiment, we show that well-calibrated confidence scores allow us to balance cost with annotator load, improving accuracy with a small number of interactions. We then examine how confidence scores can help optimize the trade-off between usability and safety. We show that confidence-based thresholding can substantially reduce the number of incorrect low-confidence programs executed; however, this comes at a cost to usability. We propose the DidYouMean system which better balances usability and safety.
arxiv情報
著者 | Elias Stengel-Eskin,Benjamin Van Durme |
発行日 | 2023-03-29 17:07:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google