Interpretable Stereotype Identification through Reasoning

要約

言語モデルが固有のバイアスを含む可能性のある膨大なデータセットでトレーニングされていることを考えると、体系的な差別を意図せず永続させてしまう潜在的な危険性があります。
したがって、言語モデルのバイアスを調査して対処し、開発に公平性を組み込んで、これらのモデルが公平でバイアスがないことを保証することが不可欠になります。
この研究では、Vicuna-13B-v1.3 に基づいたゼロショット ステレオタイプ識別における推論の重要性を示します。
13B から 33B にスケーリングすることで精度の向上が観察されていますが、推論によるパフォーマンスの向上がスケールアップによる向上を大幅に上回っていることがわかります。
私たちの調査結果は、推論が、LLM がステレオタイプの識別などの領域外のタスクでスケーリング則を超えることを可能にする重要な要素である可能性があることを示唆しています。
さらに、選択された推論トレースの定性分析を通じて、推論が決定の精度だけでなく解釈可能性をどのように強化するかを強調します。

要約(オリジナル)

Given that language models are trained on vast datasets that may contain inherent biases, there is a potential danger of inadvertently perpetuating systemic discrimination. Consequently, it becomes essential to examine and address biases in language models, integrating fairness into their development to ensure these models are equitable and free from bias. In this work, we demonstrate the importance of reasoning in zero-shot stereotype identification based on Vicuna-13B-v1.3. While we do observe improved accuracy by scaling from 13B to 33B, we show that the performance gain from reasoning significantly exceeds the gain from scaling up. Our findings suggest that reasoning could be a key factor that enables LLMs to trescend the scaling law on out-of-domain tasks such as stereotype identification. Additionally, through a qualitative analysis of select reasoning traces, we highlight how reasoning enhances not just accuracy but also the interpretability of the decision.

arxiv情報

著者 Jacob-Junqi Tian,Omkar Dige,David Emerson,Faiza Khan Khattak
発行日 2024-03-06 18:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク