要約
自然言語が人間と AI の対話のデフォルトのインターフェイスになるにつれ、LM が下流のアプリケーションで不確実性を適切に伝達することが非常に必要になります。
この研究では、LM が自然言語を介して自分の応答に自信をどのように組み込むか、および LM によって明確化された不確実性に対して下流のユーザーがどのように行動するかを調査します。
私たちは公的に展開されたモデルを調査し、LM が質問に答える際に、たとえ間違った応答をしたとしても、不確実性を表現できないことがわかりました。
LM は自信を表明するよう明示的に促されることがありますが、自信過剰になる傾向があり、その結果、自信のある回答の誤り率が高くなります (平均 47%)。
私たちは人体実験を行うことで LM の自信過剰のリスクをテストし、確実性によってマークされているかどうかにかかわらず、ユーザーが LM 世代に大きく依存していることを示しました。
最後に、RLHF アライメントで使用される選好アノテーション付きデータセットを調査し、人間は不確実性のあるテキストに対して偏見を持っていることを発見しました。
私たちの研究は、人間と LM の相互作用が直面する一連の新たな安全上の害を浮き彫りにし、今後の設計上の推奨事項と緩和戦略を提案します。
要約(オリジナル)
As natural language becomes the default interface for human-AI interaction, there is a critical need for LMs to appropriately communicate uncertainties in downstream applications. In this work, we investigate how LMs incorporate confidence about their responses via natural language and how downstream users behave in response to LM-articulated uncertainties. We examine publicly deployed models and find that LMs are unable to express uncertainties when answering questions even when they produce incorrect responses. LMs can be explicitly prompted to express confidences, but tend to be overconfident, resulting in high error rates (on average 47%) among confident responses. We test the risks of LM overconfidence by running human experiments and show that users rely heavily on LM generations, whether or not they are marked by certainty. Lastly, we investigate the preference-annotated datasets used in RLHF alignment and find that humans have a bias against texts with uncertainty. Our work highlights a new set of safety harms facing human-LM interactions and proposes design recommendations and mitigating strategies moving forward.
arxiv情報
著者 | Kaitlyn Zhou,Jena D. Hwang,Xiang Ren,Maarten Sap |
発行日 | 2024-01-12 18:03:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google