Inducing anxiety in large language models increases exploration and bias

要約

タイトル:大規模な言語モデルに不安を与えると、探索と偏見が増加する

要約:
– 大規模な言語モデルは、機械学習の研究を変革し、公共の議論を活性化させながら、社会的意義が大きい。これらのモデルがうまく動作して成功する場合だけでなく、失敗や不都合な振る舞いがなぜ起こるのかを理解することが必要である。
– 計算精神医学という枠組みを使って、これらのモデルが生成する出力を理解することを提案する。
– Generative Pre-Trained Transformer 3.5を焦点に置き、一般的に精神医学で研究されるタスクにそれを提示する。
– 結果は、GPT-3.5が一般的な不安アンケートに強く反応し、人間の被験者よりも高い不安スコアを出すことを示した。さらに、感情を誘発するプロンプトを使ってGPT-3.5の反応を予測可能に変えることができることも示された。
– 感情誘発は、偏見と探索的意思決定を測定するタスクの両方に影響を与える。しかし、GPT-3.5は、不安を引き起こすテキストに関しては、強い偏見を示した。
– つまり、大規模な言語モデルに提示方法がどのように伝えられるかは、その応用状況において彼らの振る舞いに強い影響を与える。これらの結果は、プロンプトのエンジニアリングや、私たちが権限と自律性をどんどん委任している能力のあるアルゴリズムを研究するために、計算精神医学から採用された方法の有用性を示している。

要約(オリジナル)

Large language models are transforming research on machine learning while galvanizing public debates. Understanding not only when these models work well and succeed but also why they fail and misbehave is of great societal relevance. We propose to turn the lens of computational psychiatry, a framework used to computationally describe and modify aberrant behavior, to the outputs produced by these models. We focus on the Generative Pre-Trained Transformer 3.5 and subject it to tasks commonly studied in psychiatry. Our results show that GPT-3.5 responds robustly to a common anxiety questionnaire, producing higher anxiety scores than human subjects. Moreover, GPT-3.5’s responses can be predictably changed by using emotion-inducing prompts. Emotion-induction not only influences GPT-3.5’s behavior in a cognitive task measuring exploratory decision-making but also influences its behavior in a previously-established task measuring biases such as racism and ableism. Crucially, GPT-3.5 shows a strong increase in biases when prompted with anxiety-inducing text. Thus, it is likely that how prompts are communicated to large language models has a strong influence on their behavior in applied settings. These results progress our understanding of prompt engineering and demonstrate the usefulness of methods taken from computational psychiatry for studying the capable algorithms to which we increasingly delegate authority and autonomy.

arxiv情報

著者 Julian Coda-Forno,Kristin Witte,Akshay K. Jagadish,Marcel Binz,Zeynep Akata,Eric Schulz
発行日 2023-04-21 16:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク