Fine-Tuned LLMs are ‘Time Capsules’ for Tracking Societal Bias Through Books

要約

本は、しばしば文化的な洞察が豊富ですが、その時代の社会的偏見を反映することもできます – 大規模な言語モデル(LLM)がトレーニング中に学び、永続化するバイアス。
微調整されたLLMを使用して、これらのバイアスを追跡および定量化する新しい方法を導入します。
70年間(1950-2019)にわたって593の架空の本を含むコーパスであるBookPageを開発し、バイアスの進化を追跡しています。
各10年の本にLLMを微調整し、ターゲットプロンプトを使用して、性別、性的指向、人種、宗教に関連するバイアスの変化を調べます。
私たちの調査結果は、LLMSが10年固有の本で訓練されたことは、段階的な傾向と顕著な変化の両方を伴う時代を反映したバイアスを明らかにしていることを示しています。
たとえば、モデルの反応は、1950年代から2010年までのリーダーシップの役割(8%から22%)における女性の描写の漸進的な増加を示し、1990年代(4%から12%)で大幅に増加し、おそらく
サードウェーブフェミニズム。
同性関係の参照は、1980年代から2000年代に著しく増加し(0%から10%)、LGBTQ+の可視性の成長を反映しています。
驚いたことに、イスラム教の否定的な描写は、2000年代に急激に上昇し(26%から38%)、9/11以降の感情を反映している可能性があります。
重要なことに、これらのバイアスは、モデルのアーキテクチャや初期トレーニングではなく、主に本の内容に起因することを示しています。
私たちの研究は、AI、文学研究、社会科学研究を橋渡しすることにより、社会的バイアスの傾向に関する新しい視点を提供します。

要約(オリジナル)

Books, while often rich in cultural insights, can also mirror societal biases of their eras – biases that Large Language Models (LLMs) may learn and perpetuate during training. We introduce a novel method to trace and quantify these biases using fine-tuned LLMs. We develop BookPAGE, a corpus comprising 593 fictional books across seven decades (1950-2019), to track bias evolution. By fine-tuning LLMs on books from each decade and using targeted prompts, we examine shifts in biases related to gender, sexual orientation, race, and religion. Our findings indicate that LLMs trained on decade-specific books manifest biases reflective of their times, with both gradual trends and notable shifts. For example, model responses showed a progressive increase in the portrayal of women in leadership roles (from 8% to 22%) from the 1950s to 2010s, with a significant uptick in the 1990s (from 4% to 12%), possibly aligning with third-wave feminism. Same-sex relationship references increased markedly from the 1980s to 2000s (from 0% to 10%), mirroring growing LGBTQ+ visibility. Concerningly, negative portrayals of Islam rose sharply in the 2000s (26% to 38%), likely reflecting post-9/11 sentiments. Importantly, we demonstrate that these biases stem mainly from the books’ content and not the models’ architecture or initial training. Our study offers a new perspective on societal bias trends by bridging AI, literary studies, and social science research.

arxiv情報

著者 Sangmitra Madhusudan,Robert Morabito,Skye Reid,Nikta Gohari Sadr,Ali Emami
発行日 2025-02-13 17:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク