Covert Bias: The Severity of Social Views’ Unalignment in Language Models Towards Implicit and Explicit Opinion

要約

最近、バイアスを特定するためのさまざまなアプローチが研究されていますが、視点を明示的に伝えない暗黙の言語が大規模な言語モデルにおけるバイアスの増幅にどのような影響を与えるかについてはほとんど知られていません。
見解に対する偏見の深刻度を調べるために、社会的集団の暗黙的知識と明示的知識が使用される 2 つの下流タスクのパフォーマンスを評価しました。
まず、過度のバイアス シナリオのエッジ ケースにおけるバイアス モデルを使用したスト​​レス テストの評価を示します。
次に、相反する視点に沿った暗黙的意見と明示的意見の両方に応じて、LLM が言語的にどのように調整するかを評価します。
私たちの調査結果は、暗黙の意見と明示的な意見を識別する際のLLMのパフォーマンスに矛盾があり、反対の立場の明示的な意見に偏る一般的な傾向があることを明らかにしました。
さらに、バイアス調整されたモデルは、調整されていない (ゼロショット) ベース モデルと比較して、不確実性フレーズを使用してより慎重な応答を生成します。
調整されていないモデルの直接的で慎重な反応は、特に主観性の高い社会的に微妙なトピックに関して、信頼性を高めるために不確実性マーカーを組み込むことによって決断力をさらに洗練する必要があることを示唆しています。

要約(オリジナル)

While various approaches have recently been studied for bias identification, little is known about how implicit language that does not explicitly convey a viewpoint affects bias amplification in large language models. To examine the severity of bias toward a view, we evaluated the performance of two downstream tasks where the implicit and explicit knowledge of social groups were used. First, we present a stress test evaluation by using a biased model in edge cases of excessive bias scenarios. Then, we evaluate how LLMs calibrate linguistically in response to both implicit and explicit opinions when they are aligned with conflicting viewpoints. Our findings reveal a discrepancy in LLM performance in identifying implicit and explicit opinions, with a general tendency of bias toward explicit opinions of opposing stances. Moreover, the bias-aligned models generate more cautious responses using uncertainty phrases compared to the unaligned (zero-shot) base models. The direct, incautious responses of the unaligned models suggest a need for further refinement of decisiveness by incorporating uncertainty markers to enhance their reliability, especially on socially nuanced topics with high subjectivity.

arxiv情報

著者 Abeer Aldayel,Areej Alokaili,Rehab Alahmadi
発行日 2024-08-16 11:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク