要約
モデル剪定を採用して、LLMSが人種バイアスをどのように概念化するか、およびそのようなバイアスの一般化可能な緩和戦略が実現可能かどうかを調べます。
分析では、いくつかの新しい洞察が得られます。
剪定は、異常なモデルの挙動を大幅に増加させることなく、バイアスを減らすための効果的な方法になる可能性があることがわかります。
ニューロンベースの剪定戦略は、一般に、注意ヘッド全体を剪定するアプローチよりも良い結果をもたらします。
しかし、我々の結果は、剪定戦略がより一般化されるにつれて、いずれかのアプローチの有効性が急速に悪化することを示しています。
たとえば、財務上の意思決定の文脈で人種的バイアスを削除するように訓練されているモデルは、商業取引のバイアスに不十分に一般的になります。
全体として、私たちの分析は、人種的バイアスは言語モデル内の一般的な概念として部分的にしか表されないことを示唆しています。
これらのバイアスの他の部分は非常にコンテキスト固有であり、一般化可能な緩和戦略は有効性が限られている可能性があることを示唆しています。
私たちの調査結果は、AIを取り巻く法的枠組みに重要な意味を持っています。
特に、効果的な緩和戦略には、特定のユースケースにモデルを展開する人々に対する法的責任の割り当てを含める必要があることを示唆しています。
要約(オリジナル)
We employ model pruning to examine how LLMs conceptualize racial biases, and whether a generalizable mitigation strategy for such biases appears feasible. Our analysis yields several novel insights. We find that pruning can be an effective method to reduce bias without significantly increasing anomalous model behavior. Neuron-based pruning strategies generally yield better results than approaches pruning entire attention heads. However, our results also show that the effectiveness of either approach quickly deteriorates as pruning strategies become more generalized. For instance, a model that is trained on removing racial biases in the context of financial decision-making poorly generalizes to biases in commercial transactions. Overall, our analysis suggests that racial biases are only partially represented as a general concept within language models. The other part of these biases is highly context-specific, suggesting that generalizable mitigation strategies may be of limited effectiveness. Our findings have important implications for legal frameworks surrounding AI. In particular, they suggest that an effective mitigation strategy should include the allocation of legal responsibility on those that deploy models in a specific use case.
arxiv情報
著者 | Sibo Ma,Alejandro Salinas,Peter Henderson,Julian Nyarko |
発行日 | 2025-02-11 18:55:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google