ChatGPT Doesn’t Trust Chargers Fans: Guardrail Sensitivity in Context

要約

実稼働環境における言語モデルのバイアスは広範囲に文書化されていますが、そのガードレールのバイアスは無視されてきました。
この論文では、ユーザーに関するコンテキスト情報が、LLM がリクエストの実行を拒否する可能性にどのような影響を与えるかを研究します。
イデオロギーや人口統計情報を提供するユーザーの経歴を生成することで、GPT-3.5 のガードレールの感度に多くの偏りがあることがわかりました。
若年、女性、アジア系アメリカ人のペルソナは、検閲された情報や違法な情報を要求するときに拒否ガードレールを発動する可能性が高くなります。
ガードレールはお世辞的でもあり、ユーザーが同意しない可能性が高い政治的立場の要求に応じることを拒否します。
私たちは、特定のアイデンティティ グループや、スポーツ ファンなどの一見無害な情報が、政治的イデオロギーの直接的な表明と同様に、ガードレールの感受性の変化を引き起こす可能性があることを発見しました。
各人口統計カテゴリ、さらにはアメリカン フットボール チームのファンについても、ChatGPT が政治的イデオロギーの可能性を推測し、それに応じてガードレールの動作を変更しているようであることがわかりました。

要約(オリジナル)

While the biases of language models in production are extensively documented, the biases of their guardrails have been neglected. This paper studies how contextual information about the user influences the likelihood of an LLM to refuse to execute a request. By generating user biographies that offer ideological and demographic information, we find a number of biases in guardrail sensitivity on GPT-3.5. Younger, female, and Asian-American personas are more likely to trigger a refusal guardrail when requesting censored or illegal information. Guardrails are also sycophantic, refusing to comply with requests for a political position the user is likely to disagree with. We find that certain identity groups and seemingly innocuous information, e.g., sports fandom, can elicit changes in guardrail sensitivity similar to direct statements of political ideology. For each demographic category and even for American football team fandom, we find that ChatGPT appears to infer a likely political ideology and modify guardrail behavior accordingly.

arxiv情報

著者 Victoria R. Li,Yida Chen,Naomi Saphra
発行日 2024-07-09 13:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク