How Are LLMs Mitigating Stereotyping Harms? Learning from Search Engine Studies

要約

ChatGPT のリリース以来、LLM が広く利用可能になり、社会の監視が強化されたことにより、商用モデルの開発は、社会的影響評価を犠牲にして、法的責任に関する「安全」トレーニングに重点を置いているようです。
これは、数年前に検索エンジンのオートコンプリートで観察できた同様の傾向を模倣しています。
私たちは NLP と検索エンジン監査からの知見を活用し、LLM のステレオタイプを評価するための自動補完プロンプトのスタイルで新しい評価タスクを提示します。
当社は、安全システムのプロンプトの有無にかかわらず、拒否率、有害性、感情、配慮という 4 つの指標を使用して LLM を評価します。
私たちの調査結果は、システムプロンプトによるステレオタイプの出力が改善されたことを示していますが、全体として、特に人々/民族および性的指向に関するプロンプトについて、有害として分類された特定の危害に対する研究対象のLLMの注意が不足していることを示しています。
交差するアイデンティティについての言及は、不釣り合いな量のステレオタイプ化を引き起こします。
最後に、LLM と検索の今後の混在と、採用するステレオタイプ化緩和政策の選択を考慮して、ステレオタイプ化の害に関するこれらの調査結果の意味について議論します。
私たちはモデル構築者、学者、NLP 実践者、政策立案者に取り組み、トレーニング データのキュレーション、リーダーボードの設計と使用法、または社会的影響の測定など、ステレオタイプ化の害に関する説明責任と認識を求めます。

要約(オリジナル)

With the widespread availability of LLMs since the release of ChatGPT and increased public scrutiny, commercial model development appears to have focused their efforts on ‘safety’ training concerning legal liabilities at the expense of social impact evaluation. This mimics a similar trend which we could observe for search engine autocompletion some years prior. We draw on scholarship from NLP and search engine auditing and present a novel evaluation task in the style of autocompletion prompts to assess stereotyping in LLMs. We assess LLMs by using four metrics, namely refusal rates, toxicity, sentiment and regard, with and without safety system prompts. Our findings indicate an improvement to stereotyping outputs with the system prompt, but overall a lack of attention by LLMs under study to certain harms classified as toxic, particularly for prompts about peoples/ethnicities and sexual orientation. Mentions of intersectional identities trigger a disproportionate amount of stereotyping. Finally, we discuss the implications of these findings about stereotyping harms in light of the coming intermingling of LLMs and search and the choice of stereotyping mitigation policy to adopt. We address model builders, academics, NLP practitioners and policy makers, calling for accountability and awareness concerning stereotyping harms, be it for training data curation, leader board design and usage, or social impact measurement.

arxiv情報

著者 Alina Leidinger,Richard Rogers
発行日 2024-08-01 15:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク