Inducing anxiety in large language models can induce bias

要約

大規模言語モデル (LLM) は、公開討論を活性化しながら、機械学習の研究を変革しています。
これらのモデルがいつうまく機能して成功するかだけでなく、なぜ失敗したり不正行為が行われるのかを理解することは、社会との関連性が非常に重要です。
私たちは、不適応行動を説明し修正するために使用される枠組みである精神医学のレンズを、これらのモデルによって生成される出力に向けることを提案します。
私たちは 12 の確立された LLM に焦点を当て、それらに対して精神医学で一般的に使用されるアンケートを実施しました。
私たちの結果は、最新の LLM のうち 6 つが不安アンケートに確実に反応し、人間と同等の不安スコアを生成していることを示しています。
さらに、LLM の反応は、不安を誘発するプロンプトを使用することで予測どおりに変化する可能性があります。
不安誘発は、不安アンケートのLLMのスコアに影響を与えるだけでなく、人種差別や年齢差別などの偏見を測定する以前に確立されたベンチマークにおける彼らの行動にも影響を与えます。
重要なのは、不安を誘発するテキストが大きいほどバイアスの強い増加につながり、プロンプトがどの程度不安を大規模な言語モデルに伝えるかが、応用設定での行動に強い影響を与えることを示唆しています。
これらの結果は、私たちが権威と自律性をますます委任している有能なアルゴリズムを研究するために精神医学から得た方法の有用性を実証しています。

要約(オリジナル)

Large language models (LLMs) are transforming research on machine learning while galvanizing public debates. Understanding not only when these models work well and succeed but also why they fail and misbehave is of great societal relevance. We propose to turn the lens of psychiatry, a framework used to describe and modify maladaptive behavior, to the outputs produced by these models. We focus on twelve established LLMs and subject them to a questionnaire commonly used in psychiatry. Our results show that six of the latest LLMs respond robustly to the anxiety questionnaire, producing comparable anxiety scores to humans. Moreover, the LLMs’ responses can be predictably changed by using anxiety-inducing prompts. Anxiety-induction not only influences LLMs’ scores on an anxiety questionnaire but also influences their behavior in a previously-established benchmark measuring biases such as racism and ageism. Importantly, greater anxiety-inducing text leads to stronger increases in biases, suggesting that how anxiously a prompt is communicated to large language models has a strong influence on their behavior in applied settings. These results demonstrate the usefulness of methods taken from psychiatry for studying the capable algorithms to which we increasingly delegate authority and autonomy.

arxiv情報

著者 Julian Coda-Forno,Kristin Witte,Akshay K. Jagadish,Marcel Binz,Zeynep Akata,Eric Schulz
発行日 2024-10-15 14:20:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク