Revealing Political Bias in LLMs through Structured Multi-Agent Debate

要約

大規模な言語モデル(LLM)は、社会的行動をシミュレートするためにますます使用されていますが、議論における政治的バイアスと相互作用のダイナミクスは依存していないままです。
LLMタイプとエージェントのジェンダー属性は、政治的に敏感なトピックに関する議論で中立、共和党、民主党のアメリカのLLMエージェントを引き付けることにより、構造化されたマルチエージェント討論フレームワークを使用して政治的バイアスにどのように影響するかを調査します。
基礎となるLLM、エージェント性別、議論の形式を体系的に変化させて、モデルの起源とエージェントペルソナが議論を通じて政治的バイアスと態度にどのように影響するかを調べます。
共和党員が中立に近づく一方で、中立エージェントは一貫して民主党と一致していることがわかります。
ジェンダーは、エージェントが他のエージェントの性別を認識したときに意見を適応させるエージェントの態度に影響を与えます。
そして、以前の研究に反して、共有された政治的提携を持つエージェントはエコーチャンバーを形成することができ、議論が進行するにつれて態度の予想される強化を示します。

要約(オリジナル)

Large language models (LLMs) are increasingly used to simulate social behaviour, yet their political biases and interaction dynamics in debates remain underexplored. We investigate how LLM type and agent gender attributes influence political bias using a structured multi-agent debate framework, by engaging Neutral, Republican, and Democrat American LLM agents in debates on politically sensitive topics. We systematically vary the underlying LLMs, agent genders, and debate formats to examine how model provenance and agent personas influence political bias and attitudes throughout debates. We find that Neutral agents consistently align with Democrats, while Republicans shift closer to the Neutral; gender influences agent attitudes, with agents adapting their opinions when aware of other agents’ genders; and contrary to prior research, agents with shared political affiliations can form echo chambers, exhibiting the expected intensification of attitudes as debates progress.

arxiv情報

著者 Aishwarya Bandaru,Fabian Bindley,Trevor Bluth,Nandini Chavda,Baixu Chen,Ethan Law
発行日 2025-06-13 14:30:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.SI | Revealing Political Bias in LLMs through Structured Multi-Agent Debate はコメントを受け付けていません

Bel Esprit: Multi-Agent Framework for Building AI Model Pipelines

要約

人工知能の需要(AI)が複雑な現実世界のタスクに対処するために成長するにつれて、単一のモデルは不十分であり、複数のモデルをパイプラインに統合する必要があります。
このペーパーでは、ユーザー定義の要件に基づいてAIモデルパイプラインを構築するために設計された会話エージェントであるBEL Espritを紹介します。
BEL ESPRITは、サブエージェントが協力して要件を明確にし、適切なモデルにパイプラインを構築、検証、および設定するマルチエージェントフレームワークを採用しています。
このフレームワークの有効性を、曖昧なユーザークエリからパイプラインを生成し、人間がキュリットされたデータと合成データの両方を使用して実証します。
詳細なエラー分析は、パイプライン構築における継続的な課題を強調しています。
Bel Espritは、https://belesprit.aixplain.comで無料トライアルで利用できます。

要約(オリジナル)

As the demand for artificial intelligence (AI) grows to address complex real-world tasks, single models are often insufficient, requiring the integration of multiple models into pipelines. This paper introduces Bel Esprit, a conversational agent designed to construct AI model pipelines based on user-defined requirements. Bel Esprit employs a multi-agent framework where subagents collaborate to clarify requirements, build, validate, and populate pipelines with appropriate models. We demonstrate the effectiveness of this framework in generating pipelines from ambiguous user queries, using both human-curated and synthetic data. A detailed error analysis highlights ongoing challenges in pipeline construction. Bel Esprit is available for a free trial at https://belesprit.aixplain.com.

arxiv情報

著者 Yunsu Kim,AhmedElmogtaba Abdelaziz,Thiago Castro Ferreira,Mohamed Al-Badrashiny,Hassan Sawaf
発行日 2025-06-13 14:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MA | Bel Esprit: Multi-Agent Framework for Building AI Model Pipelines はコメントを受け付けていません

V-Max: A Reinforcement Learning Framework for Autonomous Driving

要約

学習ベースの意思決定には、一般化可能な自律運転(AD)ポリシーを可能にする可能性があり、ルールベースのアプローチのエンジニアリングオーバーヘッドを削減します。
模倣学習(IL)は依然として支配的なパラダイムであり、大規模な人間のデモデータセットの恩恵を受けますが、分布シフトや模倣ギャップなどの固有の制限に苦しんでいます。
強化学習(RL)は有望な代替案を提示しますが、標準化された効率的な研究フレームワークがないため、ADでの採用は依然として限られたままです。
この目的のために、ADのRLを実用的にするために必要なすべてのツールを提供するオープンな研究フレームワークであるV-Maxを紹介します。
V-Maxは、大規模な実験用に設計されたハードウェアアクセラレーションの広告シミュレーターであるWayMax上に構築されています。
シナリオネットのアプローチを使用して拡張し、多様な広告データセットの高速シミュレーションを可能にします。

要約(オリジナル)

Learning-based decision-making has the potential to enable generalizable Autonomous Driving (AD) policies, reducing the engineering overhead of rule-based approaches. Imitation Learning (IL) remains the dominant paradigm, benefiting from large-scale human demonstration datasets, but it suffers from inherent limitations such as distribution shift and imitation gaps. Reinforcement Learning (RL) presents a promising alternative, yet its adoption in AD remains limited due to the lack of standardized and efficient research frameworks. To this end, we introduce V-Max, an open research framework providing all the necessary tools to make RL practical for AD. V-Max is built on Waymax, a hardware-accelerated AD simulator designed for large-scale experimentation. We extend it using ScenarioNet’s approach, enabling the fast simulation of diverse AD datasets.

arxiv情報

著者 Valentin Charraut,Thomas Tournaire,Waël Doulazmi,Thibault Buhet
発行日 2025-06-13 14:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | V-Max: A Reinforcement Learning Framework for Autonomous Driving はコメントを受け付けていません

TrustGLM: Evaluating the Robustness of GraphLLMs Against Prompt, Text, and Structure Attacks

要約

大規模な言語モデル(LLMS)の成功に触発されて、従来のグラフ学習方法からLLMベースのグラフフレームワーク(正式にはgraphllmsとして知られている)が重要な研究シフトがあります。
GraphLLMSは、3つの主要なコンポーネントを統合することにより、LLMSの推論力を活用します。入力ノードのテキスト属性、ノード近傍の構造情報、および意思決定をガイドするタスク固有のプロンプト。
彼らの約束にもかかわらず、敵対的な摂動に対するgraphllmsの堅牢性は、ほとんど未開拓のままです – これらのモデルをハイステークスシナリオに展開するための重要な懸念。
ギャップを埋めるために、TrustGlmを紹介します。これは、テキスト、グラフ構造、迅速な操作という3つの次元にわたる敵対的な攻撃に対するgraphllmsの脆弱性を評価する包括的な研究です。
モデルの回復力を厳密に評価するために、各観点から最先端の攻撃アルゴリズムを実装します。
多様なドメインからの6つのベンチマークデータセットでの広範な実験を通じて、我々の調査結果は、graphllmsがノードのテキスト属性に数本の意味的に類似した単語を置き換えるだけで、テキスト攻撃を非常に受けやすいことを明らかにしています。
また、標準のグラフ構造攻撃方法はモデルのパフォーマンスを大幅に低下させる可能性があることがわかりますが、プロンプトテンプレートに設定された候補ラベルのランダムシャッフルは、大幅なパフォーマンスドロップにつながります。
これらの脆弱性を特徴付けるだけでなく、データを介したトレーニングと敵対的なトレーニングを通じて、各攻撃ベクトルに合わせて調整された防御技術を調査します。
当社のオープンソースのライブラリが、迅速で公平な評価を促進し、この分野でのさらなる革新的な研究を刺激することを願っています。

要約(オリジナル)

Inspired by the success of large language models (LLMs), there is a significant research shift from traditional graph learning methods to LLM-based graph frameworks, formally known as GraphLLMs. GraphLLMs leverage the reasoning power of LLMs by integrating three key components: the textual attributes of input nodes, the structural information of node neighborhoods, and task-specific prompts that guide decision-making. Despite their promise, the robustness of GraphLLMs against adversarial perturbations remains largely unexplored-a critical concern for deploying these models in high-stakes scenarios. To bridge the gap, we introduce TrustGLM, a comprehensive study evaluating the vulnerability of GraphLLMs to adversarial attacks across three dimensions: text, graph structure, and prompt manipulations. We implement state-of-the-art attack algorithms from each perspective to rigorously assess model resilience. Through extensive experiments on six benchmark datasets from diverse domains, our findings reveal that GraphLLMs are highly susceptible to text attacks that merely replace a few semantically similar words in a node’s textual attribute. We also find that standard graph structure attack methods can significantly degrade model performance, while random shuffling of the candidate label set in prompt templates leads to substantial performance drops. Beyond characterizing these vulnerabilities, we investigate defense techniques tailored to each attack vector through data-augmented training and adversarial training, which show promising potential to enhance the robustness of GraphLLMs. We hope that our open-sourced library will facilitate rapid, equitable evaluation and inspire further innovative research in this field.

arxiv情報

著者 Qihai Zhang,Xinyue Sheng,Yuanfu Sun,Qiaoyu Tan
発行日 2025-06-13 14:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TrustGLM: Evaluating the Robustness of GraphLLMs Against Prompt, Text, and Structure Attacks はコメントを受け付けていません

Agent Semantics, Semantic Spacetime, and Graphical Reasoning

要約

指示された知識表現とプロセスモデリングへの使用に関して、セマンティック時空グラフモデルのいくつかの正式な側面が提示されています。
有限$ \ガンマ(3,4)$表現が定義され、任意の程度のセマンティックの複雑さに拡大できる閉じた操作セットを形成します。
セマンティックの時空の仮説は、グラフの経路に最小限の制約を伴う予測可能性をもたらします。
部分グラフの吸収状態の遍在する外観は、グラフプロセスが情報を漏らすことを意味します。
この問題は、ゼロによる分割の問題と密接に関連しており、ゼロは閉鎖の喪失と是正情報の手動注入の必要性を示しています。
セマンティック時空モデル(およびその約束理論)の起源は、そのような吸収状態が意図性が入ることができる境界情報にどのように関連付けられているかを明確にするのに役立ちます。

要約(オリジナル)

Some formal aspects of the Semantic Spacetime graph model are presented, with reference to its use for directed knowledge representations and process modelling. A finite $\gamma(3,4)$ representation is defined to form a closed set of operations that can scale to any degree of semantic complexity. The Semantic Spacetime postulates bring predictability with minimal constraints to pathways in graphs. The ubiquitous appearance of absorbing states in any partial graph means that a graph process leaks information. The issue is closely associated with the issue of division by zero, which signals a loss of closure and the need for manual injection of remedial information. The Semantic Spacetime model (and its Promise Theory) origins help to clarify how such absorbing states are associated with boundary information where intentionality can enter.

arxiv情報

著者 Mark Burgess
発行日 2025-06-13 14:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, F.4.1 | Agent Semantics, Semantic Spacetime, and Graphical Reasoning はコメントを受け付けていません

MoESD: Unveil Speculative Decoding’s Potential for Accelerating Sparse MoE

要約

大規模な言語モデル(LLM)は、多くのアプリケーションで顕著な成功を収めており、専門家(MOE)モデルの混合が大きな可能性を示しています。
従来の高密度モデルと比較して、MoEは計算を少なくするとパフォーマンスが向上します。
投機的デコード(SD)は、精度の損失なしにLLM推論を加速するために広く使用されている手法ですが、密なモデルでのみ効率的であると考えられています。
この作業では、中程度のバッチサイズの下で、MOEは驚くほど密集したモデルよりもSDから驚くほど利益を得ることを実証します。
さらに、MOEがSD加速度が効果的であると予想されるバッチサイズの範囲であるMOEが控えめになるにつれて、SD加速度がより広くなります。
SDに関与するトレードオフを定量的に理解するために、理論分析に基づいて信頼できるモデリングを開発します。
現在のSD研究は主にアルゴリズムの受け入れ率の改善に焦点を当てていますが、ワークロードとモデルアーキテクチャの変化は、高い受容率であってもSD加速度の低下につながる可能性があります。
この制限に対処するために、これらの効果を特徴付ける新しいメトリック「ターゲット効率」を導入し、研究者がシステムボトルネックを特定し、SD加速度をより包括的に理解するのに役立ちます。
プライベートサービングなどのシナリオについては、この作業は、既存のソリューションが苦労しているMOE推論をスピードアップするための新しい視点を明らかにします。
さまざまなGPUでの実験は、中程度のバッチサイズでQWEN2-57B-A14Bの最大2.29xスピードアップを示し、理論的予測を検証します。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success across many applications, with Mixture of Experts (MoE) models demonstrating great potential. Compared to traditional dense models, MoEs achieve better performance with less computation. Speculative decoding (SD) is a widely used technique to accelerate LLM inference without accuracy loss, but it has been considered efficient only for dense models. In this work, we first demonstrate that, under medium batch sizes, MoE surprisingly benefits more from SD than dense models. Furthermore, as MoE becomes sparser — the prevailing trend in MoE designs — the batch size range where SD acceleration is expected to be effective becomes broader. To quantitatively understand tradeoffs involved in SD, we develop a reliable modeling based on theoretical analyses. While current SD research primarily focuses on improving acceptance rates of algorithms, changes in workload and model architecture can still lead to degraded SD acceleration even with high acceptance rates. To address this limitation, we introduce a new metric ‘target efficiency’ that characterizes these effects, thus helping researchers identify system bottlenecks and understand SD acceleration more comprehensively. For scenarios like private serving, this work unveils a new perspective to speed up MoE inference, where existing solutions struggle. Experiments on different GPUs show up to 2.29x speedup for Qwen2-57B-A14B at medium batch sizes and validate our theoretical predictions.

arxiv情報

著者 Zongle Huang,Lei Zhu,Zongyuan Zhan,Ting Hu,Weikai Mao,Xianzhi Yu,Yongpan Liu,Tianyu Zhang
発行日 2025-06-13 14:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | MoESD: Unveil Speculative Decoding’s Potential for Accelerating Sparse MoE はコメントを受け付けていません

Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values

要約

ゲーム理論に起源があるため、Shapleyの値、Banzhaf値、半価値などの確率的価値が説明可能なAIの中心ツールとして浮上しています。
それらは、機能の帰属、データの帰属、データ評価などに使用されます。
これらの値はすべて、正確に計算する指数時間を必要とするため、研究はモンテカルロサンプリングと線形回帰定式化の2つの手法を使用した効率的な近似方法に焦点を当てています。
この作業では、これらの両方の手法を組み合わせる新しい方法を提示します。
私たちのアプローチは、以前のアルゴリズムよりも柔軟であり、確率的値を効率的に計算できる関数ファミリに線形回帰を置き換えることができます。
これにより、Xgboostのようなツリーベースのモデルの精度を活用しながら、偏見のない推定値を生成することができます。
8つのデータセットの実験から、私たちの方法は、確率的値を推定するための最先端のパフォーマンスを提供することがわかります。
Shapleyの値の場合、メソッドの誤差は、順列シェップ(最も人気のあるモンテカルロ法)よりも6.5 \ Times $低く、カーネルシェップ(最も人気のある線形回帰法)よりも3.8 \ Times $低く、レバレッジシェップよりも2.6 \ Times $ $低い場合があります。
より一般的な確率的値のために、以前の作業からの最良の推定器よりもエラー$ 215 \ times $低いエラーを取得できます。

要約(オリジナル)

With origins in game theory, probabilistic values like Shapley values, Banzhaf values, and semi-values have emerged as a central tool in explainable AI. They are used for feature attribution, data attribution, data valuation, and more. Since all of these values require exponential time to compute exactly, research has focused on efficient approximation methods using two techniques: Monte Carlo sampling and linear regression formulations. In this work, we present a new way of combining both of these techniques. Our approach is more flexible than prior algorithms, allowing for linear regression to be replaced with any function family whose probabilistic values can be computed efficiently. This allows us to harness the accuracy of tree-based models like XGBoost, while still producing unbiased estimates. From experiments across eight datasets, we find that our methods give state-of-the-art performance for estimating probabilistic values. For Shapley values, the error of our methods can be $6.5\times$ lower than Permutation SHAP (the most popular Monte Carlo method), $3.8\times$ lower than Kernel SHAP (the most popular linear regression method), and $2.6\times$ lower than Leverage SHAP (the prior state-of-the-art Shapley value estimator). For more general probabilistic values, we can obtain error $215\times$ lower than the best estimator from prior work.

arxiv情報

著者 R. Teal Witter,Yurong Liu,Christopher Musco
発行日 2025-06-13 14:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Regression-adjusted Monte Carlo Estimators for Shapley Values and Probabilistic Values はコメントを受け付けていません

Training RL Agents for Multi-Objective Network Defense Tasks

要約

狭い能力よりも幅広い能力を達成するトレーニングエージェントを強調するオープンエンドラーニング(OEL)は、堅牢性と一般化を達成するために、人工知能(AI)エージェントを開発するためのパラダイムとして浮上しています。
ただし、OELの利点を実証する有望な結果にもかかわらず、OELを適用して実際のサイバーセキュリティアプリケーションの自律剤を開発することは依然として課題です。
OELに触発されたトレーニングアプローチを提案して、自律的なネットワークディフェンダーを開発します。
私たちの結果は、他のドメインと同様に、OELの原則がサイバー防衛のために、より堅牢で一般化可能なエージェントに変換できることを示しています。
OELをネットワーク防御に適用するには、いくつかの技術的な課題に対処する必要があります。
最も重要なことは、目標、報酬、およびアクションスペースよりも一貫したインターフェイスを維持する、幅広いタスクの宇宙にタスク表現アプローチを提供することが重要です。
このようにして、学習エージェントは、さまざまなネットワーク条件、攻撃者の行動、およびディフェンダーの目標でトレーニングしながら、以前に獲得した知識を構築することができます。
ツールと結果により、サイバーセキュリティの問題を解決するためにAIを適用する研究に根本的に影響を与えることを目指しています。
具体的には、研究者がサイバー防衛のためにジムとベンチマークを開発するにつれて、私たちが私たちの仕事で提案するような一貫した表現を備えた多様なタスクを考慮することが最も重要です。

要約(オリジナル)

Open-ended learning (OEL) — which emphasizes training agents that achieve broad capability over narrow competency — is emerging as a paradigm to develop artificial intelligence (AI) agents to achieve robustness and generalization. However, despite promising results that demonstrate the benefits of OEL, applying OEL to develop autonomous agents for real-world cybersecurity applications remains a challenge. We propose a training approach, inspired by OEL, to develop autonomous network defenders. Our results demonstrate that like in other domains, OEL principles can translate into more robust and generalizable agents for cyber defense. To apply OEL to network defense, it is necessary to address several technical challenges. Most importantly, it is critical to provide a task representation approach over a broad universe of tasks that maintains a consistent interface over goals, rewards and action spaces. This way, the learning agent can train with varying network conditions, attacker behaviors, and defender goals while being able to build on previously gained knowledge. With our tools and results, we aim to fundamentally impact research that applies AI to solve cybersecurity problems. Specifically, as researchers develop gyms and benchmarks for cyber defense, it is paramount that they consider diverse tasks with consistent representations, such as those we propose in our work.

arxiv情報

著者 Andres Molina-Markham,Luis Robaina,Sean Steinle,Akash Trivedi,Derek Tsui,Nicholas Potteiger,Lauren Brandt,Ransom Winder,Ahmad Ridley
発行日 2025-06-13 14:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Training RL Agents for Multi-Objective Network Defense Tasks はコメントを受け付けていません

The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets

要約

AIエージェントは、製品検索、交渉、トランザクションの実行などのタスクを支援するために、消費者向けアプリケーションでますます使用されています。
この論文では、消費者と商人の両方がAIエージェントが交渉と取引を完全に自動化することを許可する将来のシナリオを探ります。
2つの重要な質問に答えることを目指しています。(1)さまざまなLLMエージェントは、ユーザーにとって有利な取引を確保する能力が異なりますか?
(2)消費者市場でAIエージェントとの取引制作を完全に自動化することから何が生じるのですか?
これらの質問に対処するために、実際の交渉とトランザクションの設定におけるさまざまなLLMエージェントのパフォーマンスを評価する実験的なフレームワークを開発します。
私たちの調査結果は、AIを介した取引制作が本質的に不均衡なゲームであることを明らかにしています。エージェントごとに、ユーザーにとって大幅に異なる結果を達成しています。
さらに、LLMSの行動異常は、消費者と商人の両方に、過剰支出や不当な取引の受け入れなど、経済的損失をもたらす可能性があります。
これらの結果は、自動化が効率を改善できる一方で、かなりのリスクをもたらすことを強調しています。
ユーザーは、ビジネス上の決定をAIエージェントに委任する際には注意を払う必要があります。

要約(オリジナル)

AI agents are increasingly used in consumer-facing applications to assist with tasks such as product search, negotiation, and transaction execution. In this paper, we explore a future scenario where both consumers and merchants authorize AI agents to fully automate negotiations and transactions. We aim to answer two key questions: (1) Do different LLM agents vary in their ability to secure favorable deals for users? (2) What risks arise from fully automating deal-making with AI agents in consumer markets? To address these questions, we develop an experimental framework that evaluates the performance of various LLM agents in real-world negotiation and transaction settings. Our findings reveal that AI-mediated deal-making is an inherently imbalanced game — different agents achieve significantly different outcomes for their users. Moreover, behavioral anomalies in LLMs can result in financial losses for both consumers and merchants, such as overspending or accepting unreasonable deals. These results underscore that while automation can improve efficiency, it also introduces substantial risks. Users should exercise caution when delegating business decisions to AI agents.

arxiv情報

著者 Shenzhe Zhu,Jiao Sun,Yi Nian,Tobin South,Alex Pentland,Jiaxin Pei
発行日 2025-06-13 15:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.MA | The Automated but Risky Game: Modeling Agent-to-Agent Negotiations and Transactions in Consumer Markets はコメントを受け付けていません

Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts

要約

大規模な言語モデル(LLM)は、生成されたコンテンツの安全性を評価するために自動評価者としてますます採用されていますが、この役割におけるそれらの信頼性は不確実なままです。
この研究では、重要な安全性ドメイン全体の11のLLMジャッジモデルの多様なセットを評価し、3つの重要な側面を調べます。繰り返し判断のタスクにおける自己整合性、人間の判断との整合性、および謝罪や冗長なフレージングなどのアーティファクトを入力する可能性。
私たちの調査結果は、LLM審査員のバイアスが、コンテンツソースがより安全である最終的な評決を大幅に歪め、比較評価の妥当性を損なうことができることを明らかにしています。
特に、謝罪の言語アーティファクトだけで、評価者の好みを最大98 \%でゆがめることができます。
期待に反して、より大きなモデルは一貫してより大きな堅牢性を示すものではありませんが、より小さなモデルは特定のアーティファクトに対してより高い抵抗を示すことがあります。
LLM評価者の堅牢性の問題を緩和するために、複数のモデルからの決定を集約するju審ベースの評価を調査します。
このアプローチは堅牢性を向上させ、人間の判断との整合性を高めますが、アーティファクトの感度は最高のju審員構成でも持続します。
これらの結果は、信頼できる安全性評価を確保するために、多様化されたアーティファクト耐性の方法論の緊急の必要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) are increasingly employed as automated evaluators to assess the safety of generated content, yet their reliability in this role remains uncertain. This study evaluates a diverse set of 11 LLM judge models across critical safety domains, examining three key aspects: self-consistency in repeated judging tasks, alignment with human judgments, and susceptibility to input artifacts such as apologetic or verbose phrasing. Our findings reveal that biases in LLM judges can significantly distort the final verdict on which content source is safer, undermining the validity of comparative evaluations. Notably, apologetic language artifacts alone can skew evaluator preferences by up to 98\%. Contrary to expectations, larger models do not consistently exhibit greater robustness, while smaller models sometimes show higher resistance to specific artifacts. To mitigate LLM evaluator robustness issues, we investigate jury-based evaluations aggregating decisions from multiple models. Although this approach both improves robustness and enhances alignment to human judgements, artifact sensitivity persists even with the best jury configurations. These results highlight the urgent need for diversified, artifact-resistant methodologies to ensure reliable safety assessments.

arxiv情報

著者 Hongyu Chen,Seraphina Goldfarb-Tarrant
発行日 2025-06-13 15:07:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to Artifacts はコメントを受け付けていません