Implicit Bias-Like Patterns in Reasoning Models

要約

暗黙的なバイアスとは、知覚、判断、および行動を形成する自動または自発的な精神プロセスを指します。
大規模な言語モデル(LLMS)における「暗黙のバイアス」を調べる以前の研究では、モデル処理ではなくモデル出力に焦点を当てることにより、人間で研究されている方法とは異なる現象に近づくことがよくあります。
モデル処理を調べるために、推論モデルで暗黙のバイアス様パターンを研究するための推論モデル暗黙的関連テスト(RM-IAT)と呼ばれる方法を提示します。複雑なタスクを解決するために段階的な推論を採用するLLM。
この方法を使用して、Associationに互換性のある情報と比較して、関連性のない情報を処理する際に、推論モデルにはより多くのトークンが必要であることがわかります。
これらの調査結果は、人間の暗黙的なバイアスに類似した情報処理におけるAIシステムハーバーパターンを示唆しています。
実際のアプリケーションでの展開に対するこれらの暗黙のバイアス様パターンの意味を考慮します。

要約(オリジナル)

Implicit bias refers to automatic or spontaneous mental processes that shape perceptions, judgments, and behaviors. Previous research examining `implicit bias’ in large language models (LLMs) has often approached the phenomenon differently than how it is studied in humans by focusing primarily on model outputs rather than on model processing. To examine model processing, we present a method called the Reasoning Model Implicit Association Test (RM-IAT) for studying implicit bias-like patterns in reasoning models: LLMs that employ step-by-step reasoning to solve complex tasks. Using this method, we find that reasoning models require more tokens when processing association-incompatible information compared to association-compatible information. These findings suggest AI systems harbor patterns in processing information that are analogous to human implicit bias. We consider the implications of these implicit bias-like patterns for their deployment in real-world applications.

arxiv情報

著者 Messi H. J. Lee,Calvin K. Lai
発行日 2025-03-14 16:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク