要約
大規模な言語モデルは、コードなどの構造化テキストを予測する際に印象的な結果を示しますが、出力にエラーや幻覚を引き起こすこともよくあります。
ソフトウェア開発者を支援するためにこれらのモデルを使用すると、ユーザーが戻って修正しなければならない間違いを犯したり、さらに悪いことに、ユーザーが完全に見逃してしまうような微妙なバグが発生する可能性があります。
ランダム化された効用主導の不確実な領域の合成 (R-U-SURE) を提案する
エンドユーザーの可能な意図。
私たちの手法は、コードの任意の生成モデルとオプションの AST パーサーへのサンプル アクセスのみが与えられた場合に、構造化された不確実性の概要を効率的に生成するために、最小ベイズ リスク デコーディング、二重分解、および決定図を組み合わせます。
3 つの開発者支援タスクで R-U-SURE を実証し、モデルを再トレーニングせずにさまざまなユーザー操作パターンを適用でき、トークン確率ベースラインよりも正確な不確実性推定につながることを示します。
要約(オリジナル)
Large language models show impressive results at predicting structured text such as code, but also commonly introduce errors and hallucinations in their output. When used to assist software developers, these models may make mistakes that users must go back and fix, or worse, introduce subtle bugs that users may miss entirely. We propose Randomized Utility-driven Synthesis of Uncertain REgions (R-U-SURE), an approach for building uncertainty-aware suggestions based on a decision-theoretic model of goal-conditioned utility, using random samples from a generative model as a proxy for the unobserved possible intents of the end user. Our technique combines minimum-Bayes-risk decoding, dual decomposition, and decision diagrams in order to efficiently produce structured uncertainty summaries, given only sample access to an arbitrary generative model of code and an optional AST parser. We demonstrate R-U-SURE on three developer-assistance tasks, and show that it can be applied different user interaction patterns without retraining the model and leads to more accurate uncertainty estimates than token-probability baselines.
arxiv情報
著者 | Daniel D. Johnson,Daniel Tarlow,Christian Walder |
発行日 | 2023-03-01 18:46:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google