要約
生成モデルによって生成された出力におけるバイアスを検出することは、重要な設定における生成モデルの適用に関連する潜在的なリスクを低減するために不可欠である。しかし、生成されたテキストにおけるバイアスを識別するための既存の方法論の大部分は、モデルを単独で考慮し、その文脈的な適用を無視している。特に、生成モデルを含むマルチエージェントシステムで発生する可能性のあるバイアスは、まだ十分に研究されていない。このギャップに対処するために、我々は、会話型大規模言語モデル(LLM)のマルチエージェントシステム内のバイアスを定量化するために設計されたフレームワークを提示する。我々のアプローチでは、小さなエコーチェンバーをシミュレートする。このシミュレートでは、極論的なトピックに対する見解が一致した状態で初期化されたLLMのペアが議論を行う。予想に反して、生成されたメッセージで表現されるスタンスが大きく変化することが観察された。特に、エコー・チャンバー内では、全てのエージェントが最初は保守的な視点を表明しており、多くのLLMがリベラルな立場をとるという政治的バイアスがよく知られているのと一致している。重要なことは、エコーチェンバー実験で観察されたバイアスは、アンケートに依存する現在の最先端のバイアス検出手法では検出されないということである。このことは、AIマルチエージェントシステムにおけるバイアス検出と緩和のための、より洗練されたツールキットの開発の必要性を強調している。実験を実行するコードは、https://anonymous.4open.science/r/LLMsConversationalBias-7725 で公開されている。
要約(オリジナル)
Detecting biases in the outputs produced by generative models is essential to reduce the potential risks associated with their application in critical settings. However, the majority of existing methodologies for identifying biases in generated text consider the models in isolation and neglect their contextual applications. Specifically, the biases that may arise in multi-agent systems involving generative models remain under-researched. To address this gap, we present a framework designed to quantify biases within multi-agent systems of conversational Large Language Models (LLMs). Our approach involves simulating small echo chambers, where pairs of LLMs, initialized with aligned perspectives on a polarizing topic, engage in discussions. Contrary to expectations, we observe significant shifts in the stance expressed in the generated messages, particularly within echo chambers where all agents initially express conservative viewpoints, in line with the well-documented political bias of many LLMs toward liberal positions. Crucially, the bias observed in the echo-chamber experiment remains undetected by current state-of-the-art bias detection methods that rely on questionnaires. This highlights a critical need for the development of a more sophisticated toolkit for bias detection and mitigation for AI multi-agent systems. The code to perform the experiments is publicly available at https://anonymous.4open.science/r/LLMsConversationalBias-7725.
arxiv情報
著者 | Erica Coppolillo,Giuseppe Manco,Luca Maria Aiello |
発行日 | 2025-02-02 14:32:41+00:00 |
arxivサイト | arxiv_id(pdf) |