Anti-stereotypical Predictive Text Suggestions Do Not Reliably Yield Anti-stereotypical Writing

要約

言語モデルなどの AI ベースのシステムは、トレーニング データに反映される社会的バイアスを複製および増幅する可能性があります。
これは、他の問題のある動作の中でも特に、規範的に不適切なステレオタイプの関連付けを含む LM によって生成されたテキストやテキストの提案につながる可能性があります。
この論文では、言語モデルの「バイアスの除去」が、予測テキスト シナリオでその言語モデルを使用して人々が書くストーリーにどのような影響を与えるかという問題を検討します。
特定のシナリオでは (n=414)、一般的な社会的固定観念に沿った言語モデルの提案が人間の作成者に受け入れられる可能性が高いことがわかりました。
逆に、反定型的な言語モデルの提案は反定型的なストーリーの割合の増加につながることもありますが、この影響は「完全に偏りのない」ストーリーにつながるには程遠いです。

要約(オリジナル)

AI-based systems such as language models can replicate and amplify social biases reflected in their training data. Among other questionable behavior, this can lead to LM-generated text–and text suggestions–that contain normatively inappropriate stereotypical associations. In this paper, we consider the question of how ‘debiasing’ a language model impacts stories that people write using that language model in a predictive text scenario. We find that (n=414), in certain scenarios, language model suggestions that align with common social stereotypes are more likely to be accepted by human authors. Conversely, although anti-stereotypical language model suggestions sometimes lead to an increased rate of anti-stereotypical stories, this influence is far from sufficient to lead to ‘fully debiased’ stories.

arxiv情報

著者 Connor Baumler,Hal Daumé III
発行日 2024-09-30 15:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク