Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

要約

このフレームワークは、コーディングと単体テストの生成能力を、相互作用の結果に基づいて共進化させる。このアプローチにより、柔軟でスケーラブルな学習が可能となり、単体テスターはコーダーのミスから直接学ぶことができる。ReasonFlux-Coder-7Bと14Bは、Qwen2.5-Instructモデルに最適化した後、コード生成精度を5.3%、Best-of-N精度を9.0%向上させ、同規模のQwen-Coder、DeepSeek-Coder、Seed-Coderを凌駕しています。また、テストタイム・スケーリングやエージェンティッ ク・コーディングなどの下流タスクにも自然に適用され、ベースモデルに対して 8.1%の改善を達成しました。ロングCoTモデルでは、ReasonFlux-Coder-4BがQwen3-4Bを常に上回り、ユニットテスト生成において64.8%の推論効率を達成しました。また、ベースモデルに対する強化学習のための効果的な報酬モデルとしても機能することがわかった。プロジェクト: https://github.com/Gen-Verse/CURE

要約(オリジナル)

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder’s mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

arxiv情報

著者 Yinjie Wang,Ling Yang,Ye Tian,Ke Shen,Mengdi Wang
発行日 2025-06-03 17:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning はコメントを受け付けていません

Low-Rank Adaptation Secretly Imitates Differentially Private SGD

要約

学習済み言語モデルのサイズが大きくなるにつれて、タスク適応データ上でそのパラメータを完全に微調整することはますます非現実的になる。この課題に対処するため、言語モデルの低ランク適応のためのいくつかの手法が提案されている。例えば、LoRAは、学習可能な低ランク分解行列を、アダプタと呼ばれる事前学習済みモデルの一部のパラメータのみに組み込む手法である。このアプローチは、全てのパラメータやアダプタを微調整するのに比べ、学習可能なパラメータの数を大幅に削減する。本研究では、データプライバシーの観点から低ランク適応法を考察する。LoRAで使用される低ランク適応は、DPSGDアルゴリズムが行っているように、ノイズの多いバッチ勾配で適応を微調整することと等価であることを理論的に示す。また、注入されるノイズの分散を適応ランクの減少関数として定量化する。注入されたノイズ分布と、同じ分散を持つガウスノイズ分布との間の全変動距離に関するBerry-Esseen型の境界を確立することにより、低ランク適応のダイナミクスが、DPSGDがアダプタを無視して実行される場合に非常に近いことを示す。我々の理論的知見と実験結果から、低ランク適応は、微調整データに対するメンバーシップ推論攻撃に対して頑健であることを示す。

要約(オリジナル)

As pre-trained language models grow in size, full fine-tuning their parameters on task adaptation data becomes increasingly impractical. To address this challenge, some methods for low-rank adaptation of language models have been proposed, e.g. LoRA, which incorporates trainable low-rank decomposition matrices into only some parameters of the pre-trained model, called adapters. This approach significantly reduces the number of trainable parameters compared to fine-tuning all parameters or adapters. In this work, we look at low-rank adaptation method from the lens of data privacy. We show theoretically that the low-rank adaptation used in LoRA is equivalent to fine-tuning adapters with noisy batch gradients – just like what DPSGD algorithm does. We also quantify the variance of the injected noise as a decreasing function of adaptation rank. By establishing a Berry-Esseen type bound on the total variation distance between the injected noise distribution and a Gaussian noise distribution with the same variance, we show that the dynamics of low-rank adaptation is very close to when DPSGD is performed w.r.t the adapters. Following our theoretical findings and approved by our experimental results, we show that low-rank adaptation provides robustness to membership inference attacks w.r.t the fine-tuning data.

arxiv情報

著者 Saber Malekmohammadi,Golnoosh Farnadi
発行日 2025-06-03 16:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Low-Rank Adaptation Secretly Imitates Differentially Private SGD はコメントを受け付けていません

COMPKE: Complex Question Answering under Knowledge Editing

要約

大規模な言語モデルの知識を効率的に修正する知識編集は、大きな注目を集めている。現在のベンチマークは、主にマルチホップ質問応答を用いて、新たに注入または更新された知識を評価・分析している。しかし、これらのベンチマークは、更新されたモデルが実際のシナリオにおいて知識をどの程度適用しているかを効果的に評価することができない。このギャップを埋めるために、我々は新しいベンチマークCOMPKE: Complex Question Answering under Knowledge Editingを導入する。このベンチマークには、実際の状況を反映した11,924の複雑な質問が含まれている。我々はCOMPKE上で4つの知識編集手法の広範な評価を行い、その有効性がモデルによって著しく異なることを明らかにした。例えば、MeLLoはGPT-4O-MINIで39.47の精度を達成したが、QWEN2.5-3Bでは3.83まで急激に低下した。我々はさらに、これらの格差の根本的な原因を、方法論とモデル固有の観点の両方から調査する。データセットはhttps://github.com/kzjkzj666/CompKE。

要約(オリジナル)

Knowledge Editing, which efficiently modifies the knowledge in large language models, has gathered great attention. Current benchmarks primarily use multi-hop question answering to assess and analyze newly injected or updated knowledge. However, we argue that these benchmarks fail to effectively evaluate how well the updated models apply this knowledge in real-life scenarios, particularly when questions require complex reasoning, involving one-to-many relationships or multi-step logical intersections. To fill in this gap, we introduce a new benchmark, COMPKE: Complex Question Answering under Knowledge Editing, which includes 11,924 complex questions that reflect real-life situations. We conduct an extensive evaluation of four knowledge editing methods on COMPKE, revealing that their effectiveness varies notably across different models. For instance, MeLLo attains an accuracy of 39.47 on GPT-4O-MINI, but this drops sharply to 3.83 on QWEN2.5-3B. We further investigate the underlying causes of these disparities from both methodological and model-specific perspectives. The datasets are available at https://github.com/kzjkzj666/CompKE.

arxiv情報

著者 Keyuan Cheng,Zijian Kan,Zhixian He,Zhuoran Zhang,Muhammad Asif Ali,Ke Xu,Lijie Hu,Di Wang
発行日 2025-06-03 16:03:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | COMPKE: Complex Question Answering under Knowledge Editing はコメントを受け付けていません

TestAgent: An Adaptive and Intelligent Expert for Human Assessment

要約

人間の内部状態を正確に評価することは、嗜好を理解し、パーソナライズされたサービスを提供し、実世界のアプリケーションにおける課題を特定するための鍵となる。心理測定から生まれた適応テストは、人間測定の主流となり、現在では教育、ヘルスケア、スポーツ、社会学に広く応用されている。適応テストは、最も少ないテスト問題を選択することによって、評価をカスタマイズします。しかし、現在のアダプティブ・テスト手法は、いくつかの課題に直面しています。ほとんどのアルゴリズムの機械化された性質は、推測行動や自由形式の問題の難しさにつながります。さらに、主観的な評価は、ノイズの多い回答データと粗い粒度のテスト出力に悩まされ、その有効性をさらに制限します。理想的なアダプティブ・テスト・プロセスに近づくために、我々は、対話的な関与を通じてアダプティブ・テストを強化するように設計された大規模言語モデル(LLM)搭載エージェントであるTestAgentを提案する。これは、アダプティブ・テストにおけるLLMの最初の応用である。TestAgentは、パーソナライズされた問題選択をサポートし、受験者の反応と異常を捕捉し、動的で会話的なインタラクションを通じて正確な結果を提供する。心理学、教育、ライフスタイルのアセスメントに関する実験によれば、我々のアプローチは、最新のベースラインよりも20%少ない質問数でより正確な結果を達成し、受験者は、スピード、スムーズさ、および他の次元でこのアプローチを好んだ。

要約(オリジナル)

Accurately assessing internal human states is key to understanding preferences, offering personalized services, and identifying challenges in real-world applications. Originating from psychometrics, adaptive testing has become the mainstream method for human measurement and has now been widely applied in education, healthcare, sports, and sociology. It customizes assessments by selecting the fewest test questions . However, current adaptive testing methods face several challenges. The mechanized nature of most algorithms leads to guessing behavior and difficulties with open-ended questions. Additionally, subjective assessments suffer from noisy response data and coarse-grained test outputs, further limiting their effectiveness. To move closer to an ideal adaptive testing process, we propose TestAgent, a large language model (LLM)-powered agent designed to enhance adaptive testing through interactive engagement. This is the first application of LLMs in adaptive testing. TestAgent supports personalized question selection, captures test-takers’ responses and anomalies, and provides precise outcomes through dynamic, conversational interactions. Experiments on psychological, educational, and lifestyle assessments show our approach achieves more accurate results with 20% fewer questions than state-of-the-art baselines, and testers preferred it in speed, smoothness, and other dimensions.

arxiv情報

著者 Junhao Yu,Yan Zhuang,YuXuan Sun,Weibo Gao,Qi Liu,Mingyue Cheng,Zhenya Huang,Enhong Chen
発行日 2025-06-03 16:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.LG | TestAgent: An Adaptive and Intelligent Expert for Human Assessment はコメントを受け付けていません

Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff

要約

投機的デコーディング(SD)は、候補トークンを受け入れる際に、ターゲットモデルとの厳密な分布等価性を強制する。これはターゲットモデルの生成品質を維持する一方で、この厳密な等価性によりSDで達成可能な高速化が制限され、ユーザが推論速度のさらなる向上と引き換えにターゲット分布からの逸脱を交換することを妨げる。これらの限界に対処するために、我々はファジィ投機的復号化(FSD)を導入する。これは、ターゲットとドラフトモデルの分布間の乖離に基づいて候補トークンを受け入れることにより、SDを一般化する復号化アルゴリズムである。ターゲットモデルからの乖離を制御できるようにすることで、FSDは生成品質と推論速度を柔軟に交換することを可能にする。いくつかのベンチマークにおいて、我々の手法はSDよりも1秒あたり5トークン以上高速でありながら、ベンチマークの精度を約2%しか低下させないという、大幅な実行時間の改善を達成することができた。多くの場合、FSDは1秒あたり2トークン以上速くSDのベンチマーク精度に匹敵することさえでき、目標モデルの性能を維持するために分布の等価性が必要ないことを実証しています。さらに、FSDは既存のSD拡張機能にシームレスに統合することができます。FSDをEAGLE-2に適用することで、この既存の拡張機能の効率が大幅に向上し、FSDの調整可能な品質と速度のトレードオフを活用できるようになることを実証します。

要約(オリジナル)

Speculative Decoding (SD) enforces strict distributional equivalence to the target model when accepting candidate tokens. While it maintains the target model’s generation quality, this strict equivalence limits the speedup achievable by SD and prevents users from trading deviations from the target distribution in exchange for further inference speed gains. To address these limitations, we introduce Fuzzy Speculative Decoding (FSD) – a decoding algorithm that generalizes SD by accepting candidate tokens based on the divergences between the target and draft model distributions. By allowing for controlled divergence from the target model, FSD enables users to flexibly trade generation quality for inference speed. Across several benchmarks, our method is able to achieve significant runtime improvements of over 5 tokens per second faster than SD at only an approximate 2% absolute reduction in benchmark accuracy. In many cases, FSD is even able to match SD benchmark accuracy at over 2 tokens per second faster, demonstrating that distributional equivalence is not necessary to maintain target model performance. Furthermore, FSD can be seamlessly integrated into existing SD extensions; we demonstrate this by applying FSD to EAGLE-2, greatly enhancing this existing extension’s efficiency while allowing it to leverage FSD’s tunable quality-speed trade-off.

arxiv情報

著者 Maximilian Holsman,Yukun Huang,Bhuwan Dhingra
発行日 2025-06-03 16:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Fuzzy Speculative Decoding for a Tunable Accuracy-Runtime Tradeoff はコメントを受け付けていません

Leveraging Information Retrieval to Enhance Spoken Language Understanding Prompts in Few-Shot Learning

要約

ユーザーのクエリを理解することは、ホームアシスタント、予約システム、レコメンデーションなど、多くのアプリケーションにおいて基本的なことである。したがって、システムの信頼性を確保するためには、正確な音声言語理解(SLU)アプローチを開発することが重要です。現在の最先端のSLU技術は、大量の学習データに依存していますが、特定のタスクや言語については、限られたアノテーション例しか利用できません。 一方、インストラクションチューニングされた大規模言語モデル(LLM)は、適切なプロンプトが提供された場合、数ショットの設定で未知のタスクに対して卓越した性能を示している。本研究では、SLUタスクに適用される強化されたプロンプトを構築するために、情報検索(IR)アプローチを活用した例選択の探求を提案する。提案手法の有効性を複数のSLUベンチマークで評価する。実験の結果、プロンプトの長さを増加させることなく、語彙的IR手法によって性能が大幅に向上することが示された。

要約(オリジナル)

Understanding user queries is fundamental in many applications, such as home assistants, booking systems, or recommendations. Accordingly, it is crucial to develop accurate Spoken Language Understanding (SLU) approaches to ensure the reliability of the considered system. Current State-of-the-Art SLU techniques rely on large amounts of training data; however, only limited annotated examples are available for specific tasks or languages. In the meantime, instruction-tuned large language models (LLMs) have shown exceptional performance on unseen tasks in a few-shot setting when provided with adequate prompts. In this work, we propose to explore example selection by leveraging Information retrieval (IR) approaches to build an enhanced prompt that is applied to an SLU task. We evaluate the effectiveness of the proposed method on several SLU benchmarks. Experimental results show that lexical IR methods significantly enhance performance without increasing prompt length.

arxiv情報

著者 Pierre Lepagnol,Sahar Ghannay,Thomas Gerald,Christophe Servan,Sophie Rosset
発行日 2025-06-03 16:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR | Leveraging Information Retrieval to Enhance Spoken Language Understanding Prompts in Few-Shot Learning はコメントを受け付けていません

Adoption of Watermarking Measures for AI-Generated Content and Implications under the EU AI Act

要約

近年、AIが生成する画像は非常に優れたものとなっており、個人が「本物」の画像と見分けがつかなくなることも少なくない。この発展は、AIが生成したコンテンツのオンライン上での急速な拡散と相まって、特に実在の個人になりすます「ディープフェイク」の出現など、一連の社会的リスクを生み出している。電子透かしは、画像やその他のコンテンツに情報を埋め込み、AIが生成したものであることを示す技術であり、AIが生成したコンテンツがもたらすリスクに対処するための主要なメカニズムとして登場した。実際、電子透かしやAIのラベリング措置は、2024年の欧州連合AI法の下を含め、多くの法域で法的要件となりつつある。AI画像生成システムは広く利用されているにもかかわらず、こうした措置の実施状況はほとんど検討されていないのが現状である。さらに、AI法の電子透かしとラベリング要件の実際的な意味合いも、これまで研究されてこなかった。そこで本論文では、画像生成のために広く使用されている50のAIシステムについて、AI法の法的分析に組み込んだ実証的分析を行う。法的分析では、AI法に関連する生成AIの画像展開シナリオを4つのカテゴリーに分類し、各カテゴリーにおいて法的義務がどのように適用されるかを概説する。実証分析では、現在、適切な電子透かし(38%)およびディープフェイクラベリング(8%)を実施しているAI画像生成者は少数派であることがわかりました。これに対して、これらの法的に義務付けられた技術の実装をどのように改善できるか、様々な手段を提案し、画像内の透かしを簡単に検出するためのツールを公開します。

要約(オリジナル)

AI-generated images have become so good in recent years that individuals often cannot distinguish them any more from ‘real’ images. This development, combined with the rapid spread of AI-generated content online, creates a series of societal risks, particularly with the emergence of ‘deep fakes’ that impersonate real individuals. Watermarking, a technique that involves embedding information within images and other content to indicate their AI-generated nature, has emerged as a primary mechanism to address the risks posed by AI-generated content. Indeed, watermarking and AI labelling measures are now becoming a legal requirement in many jurisdictions, including under the 2024 European Union AI Act. Despite the widespread use of AI image generation systems, the current status of the implementation of such measures remains largely unexamined. Moreover, the practical implications of the AI Act’s watermarking and labelling requirements have not previously been studied. The present paper therefore both provides an empirical analysis of 50 widely used AI systems for image generation, embedded into a legal analysis of the AI Act. In our legal analysis, we identify four categories of generative AI image deployment scenarios relevant under the AI Act and outline how the legal obligations apply in each category. In our empirical analysis, we find that only a minority number of AI image generators currently implement adequate watermarking (38%) and deep fake labelling (8%) practices. In response, we suggest a range of avenues of how the implementation of these legally mandated techniques can be improved, and publicly share our tooling for the easy detection of watermarks in images.

arxiv情報

著者 Bram Rijsbosch,Gijs van Dijck,Konrad Kollnig
発行日 2025-06-03 16:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY | Adoption of Watermarking Measures for AI-Generated Content and Implications under the EU AI Act はコメントを受け付けていません

EDEN: Entorhinal Driven Egocentric Navigation Toward Robotic Deployment

要約

深層強化学習エージェントはしばしば壊れやすいが、人間は様々なシナリオに適応的かつ柔軟に対応できる。このギャップを埋めるために、我々は生物学的にインスパイアされたナビゲーションフレームワークであるEDENを発表する。EDENは、学習された嗅内神経様グリッド細胞表現と強化学習を統合し、自律的なナビゲーションを可能にする。哺乳類の嗅内海馬システムに着想を得たEDENは、視覚データとモーションセンサーデータを用いて、エージェントが経路統合とベクトルベースのナビゲーションを行うことを可能にする。EDENの中核にあるグリッドセルエンコーダは、自心運動を周期的な空間コードに変換し、低次元で解釈可能な位置の埋め込みを生成する。生の感覚入力からこれらのアクティベーションを生成するために、軽量シミュレータMiniWorldでのフィデューシャルマーカー検出と、高忠実度シミュレータGazeboでのDINOベースの視覚的特徴を組み合わせる。これらの空間表現は、Proximal Policy Optimization (PPO)で学習されたポリシーの入力となり、動的な目標指向ナビゲーションを可能にする。我々は、ラピッドプロトタイピングのためのMiniWorldと、現実的な物理学と知覚ノイズを提供するGazeboの両方でEDENを評価した。EDENは、生の状態入力(例:位置、速度)や標準的な畳み込み画像エンコーダを用いたベースラインエージェントと比較して、単純なシナリオでは99%の成功率を達成し、より効率的で信頼性の高いステップワイズナビゲーションにより、オクルーデッドパスのある複雑なフロアプランでは94%以上の成功率を達成した。さらに、グランドトゥルースアクティベーションの代替として、視覚とモーションセンサーデータから周期的なグリッド状パターンの開発を可能にする、トレーニング可能なグリッドセルエンコーダを発表する。この研究は、ロボット工学における生物学的根拠のある空間知能への一歩であり、スケーラブルな展開のために神経ナビゲーション原理と強化学習の橋渡しをするものである。

要約(オリジナル)

Deep reinforcement learning agents are often fragile while humans remain adaptive and flexible to varying scenarios. To bridge this gap, we present EDEN, a biologically inspired navigation framework that integrates learned entorhinal-like grid cell representations and reinforcement learning to enable autonomous navigation. Inspired by the mammalian entorhinal-hippocampal system, EDEN allows agents to perform path integration and vector-based navigation using visual and motion sensor data. At the core of EDEN is a grid cell encoder that transforms egocentric motion into periodic spatial codes, producing low-dimensional, interpretable embeddings of position. To generate these activations from raw sensory input, we combine fiducial marker detections in the lightweight MiniWorld simulator and DINO-based visual features in the high-fidelity Gazebo simulator. These spatial representations serve as input to a policy trained with Proximal Policy Optimization (PPO), enabling dynamic, goal-directed navigation. We evaluate EDEN in both MiniWorld, for rapid prototyping, and Gazebo, which offers realistic physics and perception noise. Compared to baseline agents using raw state inputs (e.g., position, velocity) or standard convolutional image encoders, EDEN achieves a 99% success rate, within the simple scenarios, and >94% within complex floorplans with occluded paths with more efficient and reliable step-wise navigation. In addition, as a replacement of ground truth activations, we present a trainable Grid Cell encoder enabling the development of periodic grid-like patterns from vision and motion sensor data, emulating the development of such patterns within biological mammals. This work represents a step toward biologically grounded spatial intelligence in robotics, bridging neural navigation principles with reinforcement learning for scalable deployment.

arxiv情報

著者 Mikolaj Walczak,Romina Aalishah,Wyatt Mackey,Brittany Story,David L. Boothe Jr.,Nicholas Waytowich,Xiaomin Lin,Tinoosh Mohsenin
発行日 2025-06-03 16:28:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | EDEN: Entorhinal Driven Egocentric Navigation Toward Robotic Deployment はコメントを受け付けていません

Facts Do Care About Your Language: Assessing Answer Quality of Multilingual LLMs

要約

事実に忠実であることは、有用な教育ツールの必須条件である。教育における大規模言語モデル(LLM)の採用が拡大し続ける中、あらゆる場面での正確性を確保することが最も重要である。LLMは強力な英語能力を持つにもかかわらず、他の言語での性能はほとんど検証されていない。この研究では、Llama3.1ファミリーのモデルの正しさを、中高生に適した事実問題の解答で評価する。その結果、LLMは余計な情報や真実性の低い情報を提供するだけでなく、希少言語に対する既存のバイアスを悪化させることが明らかになった。

要約(オリジナル)

Factuality is a necessary precursor to useful educational tools. As adoption of Large Language Models (LLMs) in education continues of grow, ensuring correctness in all settings is paramount. Despite their strong English capabilities, LLM performance in other languages is largely untested. In this work, we evaluate the correctness of the Llama3.1 family of models in answering factual questions appropriate for middle and high school students. We demonstrate that LLMs not only provide extraneous and less truthful information, but also exacerbate existing biases against rare languages.

arxiv情報

著者 Yuval Kansal,Shmuel Berman,Lydia Liu
発行日 2025-06-03 16:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | Facts Do Care About Your Language: Assessing Answer Quality of Multilingual LLMs はコメントを受け付けていません

MAEBE: Multi-Agent Emergent Behavior Framework

要約

マルチエージェントAIアンサンブルが普及し、新たな創発的リスクをもたらすようになると、孤立したLLMに対する従来のAI安全性評価は不十分となる。本稿では、このようなリスクを系統的に評価するためのマルチエージェント創発行動評価(MAEBE)フレームワークを紹介する。MAEBEとGreatest Good Benchmark(および新しい二重反転質問手法)を用いて、以下のことを実証する:(1)LLMの道徳的選好、特に道具的被害に対する選好は驚くほど脆く、単一エージェントでもアンサンブルでも、質問のフレーミングによって大きく変化する。(2)LLMアンサンブルの道徳的推論は、創発的なグループダイナミクスのため、孤立したエージェントの行動からは直接予測できない。(3)特に、アンサンブルは、スーパーバイザーによって誘導された場合でも、収束に影響を与える同調圧力のような現象を示し、安全性とアライメントに関する明確な課題を浮き彫りにする。我々の知見は、AIシステムを対話的なマルチエージェントの文脈で評価する必要性を強調している。

要約(オリジナル)

Traditional AI safety evaluations on isolated LLMs are insufficient as multi-agent AI ensembles become prevalent, introducing novel emergent risks. This paper introduces the Multi-Agent Emergent Behavior Evaluation (MAEBE) framework to systematically assess such risks. Using MAEBE with the Greatest Good Benchmark (and a novel double-inversion question technique), we demonstrate that: (1) LLM moral preferences, particularly for Instrumental Harm, are surprisingly brittle and shift significantly with question framing, both in single agents and ensembles. (2) The moral reasoning of LLM ensembles is not directly predictable from isolated agent behavior due to emergent group dynamics. (3) Specifically, ensembles exhibit phenomena like peer pressure influencing convergence, even when guided by a supervisor, highlighting distinct safety and alignment challenges. Our findings underscore the necessity of evaluating AI systems in their interactive, multi-agent contexts.

arxiv情報

著者 Sinem Erisken,Timothy Gothard,Martin Leitgab,Ram Potham
発行日 2025-06-03 16:33:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.MA | MAEBE: Multi-Agent Emergent Behavior Framework はコメントを受け付けていません