Homogeneity Bias as Differential Sampling Uncertainty in Language Models

要約

以前の研究では、大規模な言語モデル(LLM)およびビジョン言語モデル(VLM)が支配的なグループよりも均一に均一になっていることが示されています。
ただし、この均一性バイアスの根底にあるメカニズムは、比較的未開拓のままです。
このバイアスは、トークンが推論時にサンプリングされる確率分布の体系的な違いから生じることを提案します。
トークンサンプリング分布の不確実性の3つの測定値 – エントロピー、困惑、および分化の確率 – 特にGPT-4ターボおよびラマ-3.2では、トークンが疎外されたグループに関するテキストを生成すると、トークンがより決定的にサンプリングされることがわかります(I.E.、
黒人アメリカ人と女性)は、彼らの支配的なグループのカウンターパート(つまり、白人アメリカ人と男性)と比較していました。
これらの発見は、特定のモデルの均一性バイアスを説明するのに役立つかもしれませんが、パターンはテストされたすべてのVLMで複製されず、複数のメカニズムがAIの均一性バイアスに寄与する可能性があることを示唆しています。

要約(オリジナル)

Prior research show that Large Language Models (LLMs) and Vision-Language Models (VLMs) represent marginalized groups more homogeneously than dominant groups. However, the mechanisms underlying this homogeneity bias remain relatively unexplored. We propose that this bias emerges from systematic differences in the probability distributions from which tokens are sampled at inference-time. Analyzing three measures of uncertainty in token sampling distributions-entropy, perplexity, and probability of differentiation-we find that in some models, specifically GPT-4 Turbo and Llama-3.2, tokens are sampled more deterministically when generating texts about marginalized groups (i.e., Black Americans and women) compared to their dominant group counterparts (i.e., White Americans and men). While these findings may help explain homogeneity bias in certain models, the patterns did not replicate across all VLMs tested, suggesting multiple mechanisms may contribute to homogeneity bias in AI.

arxiv情報

著者 Messi H. J. Lee,Soyeon Jeon
発行日 2025-01-31 17:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク