Strengthening Proportionality in Temporal Voting

要約

私たちは、承認投票で一時的な投票の枠組みの比例表現を研究しています。
以前の研究は、基本的な比例表現の概念を適合させました – 正当化された表現(JR)、比例JR(PJR)、および拡張JR(EJR) – マルチワイン設定から時間設定まで。
私たちの作品は、EJRを超えて進む方法を紹介し、検討しています。
具体的には、JR、PJR、およびEJRのより強力なバリアントを検討し、EJR+、フルJR(FJR)、フル比例JR(FPJR)、コアなど、より厳しい多額の公理の時間的適応を導入します。
これらの概念それぞれについて、その存在を調査し、既存の概念との関係を研究し、それによって比例概念の豊富な階層を確立します。
特に、提案されている公理の2つ、EJR+とFJRは、すべての時間選挙で満足できるままである間、EJRを強化することを示しています。

要約(オリジナル)

We study proportional representation in the framework of temporal voting with approval ballots. Prior work adapted basic proportional representation concepts — justified representation (JR), proportional JR (PJR), and extended JR (EJR) — from the multiwinner setting to the temporal setting. Our work introduces and examines ways of going beyond EJR. Specifically, we consider stronger variants of JR, PJR, and EJR, and introduce temporal adaptations of more demanding multiwinner axioms, such as EJR+, full JR (FJR), full proportional JR (FPJR), and the Core. For each of these concepts, we investigate its existence and study its relationship to existing notions, thereby establishing a rich hierarchy of proportionality concepts. Notably, we show that two of our proposed axioms — EJR+ and FJR — strengthen EJR while remaining satisfiable in every temporal election.

arxiv情報

著者 Bradley Phillips,Edith Elkind,Nicholas Teh,Tomasz Wąs
発行日 2025-05-28 16:02:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT | Strengthening Proportionality in Temporal Voting はコメントを受け付けていません

SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond

要約

Openai-O1やDeepseek R1などの最近の進歩により、大規模な言語モデル(LLMS)の推論能力を高める補強学習(RL)の可能性が実証されています。
オープンソースの複製の取り組みは主に数学的およびコーディングドメインに焦点を当てていますが、一般的な推論能力を開発するための方法とリソースは依存していないままです。
このギャップは、RLに適した多様で検証可能な推論データを収集するという課題によるものです。
論理は、論理が推論の基本的な構成要素を形成するため、一般的な推論能力を開発するために重要であると仮定します。
この作業では、35の多様な論理推論タスクを含む、多様な論理推論データを生成するデータ統合フレームワークとデータセットであるSynlogicを提示します。
Synlogicアプローチにより、調整可能な難易度と量を伴うデータの制御された合成が可能になります。
重要なことに、すべての例は単純なルールによって検証され、検証可能な報酬を備えたRLに理想的に適したルールで検証できます。
実験では、7Bモデルと32Bモデルに基づいてSynlogic DatasetでRLトレーニングの有効性を検証します。
Synlogicは、オープンソースのデータセット間で最先端の論理的推論パフォーマンスにつながり、BBEHで6ポイントを超えてDeepSeek-R1-Distill-Qwen-32Bを上回ります。
さらに、シンロジックデータと数学的およびコーディングタスクを混合すると、これらのドメインのトレーニング効率が向上し、推論の一般化が大幅に向上します。
特に、私たちの混合トレーニングモデルは、複数のベンチマークにわたってdeepseek-r1-zero-qwen-32bよりも優れています。
これらの調査結果は、LLMのより広範な推論能力を進めるための貴重なリソースとしてSynlogicを位置付けています。
https://github.com/minimax-ai/synlogicで、データ合成パイプラインとSynlogic Datasetの両方をオープンソースします。

要約(オリジナル)

Recent advances such as OpenAI-o1 and DeepSeek R1 have demonstrated the potential of Reinforcement Learning (RL) to enhance reasoning abilities in Large Language Models (LLMs). While open-source replication efforts have primarily focused on mathematical and coding domains, methods and resources for developing general reasoning capabilities remain underexplored. This gap is partly due to the challenge of collecting diverse and verifiable reasoning data suitable for RL. We hypothesize that logical reasoning is critical for developing general reasoning capabilities, as logic forms a fundamental building block of reasoning. In this work, we present SynLogic, a data synthesis framework and dataset that generates diverse logical reasoning data at scale, encompassing 35 diverse logical reasoning tasks. The SynLogic approach enables controlled synthesis of data with adjustable difficulty and quantity. Importantly, all examples can be verified by simple rules, making them ideally suited for RL with verifiable rewards. In our experiments, we validate the effectiveness of RL training on the SynLogic dataset based on 7B and 32B models. SynLogic leads to state-of-the-art logical reasoning performance among open-source datasets, surpassing DeepSeek-R1-Distill-Qwen-32B by 6 points on BBEH. Furthermore, mixing SynLogic data with mathematical and coding tasks improves the training efficiency of these domains and significantly enhances reasoning generalization. Notably, our mixed training model outperforms DeepSeek-R1-Zero-Qwen-32B across multiple benchmarks. These findings position SynLogic as a valuable resource for advancing the broader reasoning capabilities of LLMs. We open-source both the data synthesis pipeline and the SynLogic dataset at https://github.com/MiniMax-AI/SynLogic.

arxiv情報

著者 Junteng Liu,Yuanxiang Fan,Zhuo Jiang,Han Ding,Yongyi Hu,Chi Zhang,Yiqi Shi,Shitong Weng,Aili Chen,Shiqi Chen,Yunan Huang,Mozhi Zhang,Pengyu Zhao,Junjie Yan,Junxian He
発行日 2025-05-28 16:04:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond はコメントを受け付けていません

Evaluating Supervised Learning Models for Fraud Detection: A Comparative Study of Classical and Deep Architectures on Imbalanced Transaction Data

要約

詐欺の検出は、財務やeコマースなどのハイステークスドメインで重要なタスクのままであり、検出されない不正取引が重大な経済的損失につながる可能性があります。
この研究では、大規模で非常に不均衡なオンライントランザクションデータセットで、ロジスティック回帰、ランダムフォレスト、ランダムグラデーションブーストマシン(LightGBM)、およびゲート再生ユニット(GRU)ネットワーク – 4つのパフォーマンスを体系的に比較します。
ランダムフォレストやLightGBMなどのアンサンブルメソッドは、全体的およびクラス固有のメトリックの両方で優れたパフォーマンスを実証しましたが、ロジスティック回帰は信頼できる解釈可能なベースラインを提供しました。
GRUモデルは、少数派の詐欺クラスの強いリコールを示しましたが、精度を犠牲にして、実際の展開に関連するトレードオフを強調しています。
私たちの評価は、加重平均だけでなく、クラスごとの精度、リコール、F1スコアも強調しており、まれであるが結果的な不正活動の検出における各モデルの有効性の微妙な見解を提供します。
調査結果は、詐欺検出システムの特定のリスク許容度と運用上のニーズに基づいてモデルを選択することの重要性を強調しています。

要約(オリジナル)

Fraud detection remains a critical task in high-stakes domains such as finance and e-commerce, where undetected fraudulent transactions can lead to significant economic losses. In this study, we systematically compare the performance of four supervised learning models – Logistic Regression, Random Forest, Light Gradient Boosting Machine (LightGBM), and a Gated Recurrent Unit (GRU) network – on a large-scale, highly imbalanced online transaction dataset. While ensemble methods such as Random Forest and LightGBM demonstrated superior performance in both overall and class-specific metrics, Logistic Regression offered a reliable and interpretable baseline. The GRU model showed strong recall for the minority fraud class, though at the cost of precision, highlighting a trade-off relevant for real-world deployment. Our evaluation emphasizes not only weighted averages but also per-class precision, recall, and F1-scores, providing a nuanced view of each model’s effectiveness in detecting rare but consequential fraudulent activity. The findings underscore the importance of choosing models based on the specific risk tolerance and operational needs of fraud detection systems.

arxiv情報

著者 Chao Wang,Chuanhao Nie,Yunbo Liu
発行日 2025-05-28 16:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating Supervised Learning Models for Fraud Detection: A Comparative Study of Classical and Deep Architectures on Imbalanced Transaction Data はコメントを受け付けていません

Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments

要約

オンラインプラットフォームが成長するにつれて、コメントセクションは、ユーザーの経験と幸福を損なうハラスメントをますますホストしています。
この研究では、GAGE、ライフスタイル、フードVLOG、および音楽チャネルの高虐待スレッドからサンプリングされた5,080 YouTubeコメントのコーパスで、Openai GPT-4.1、Google Gpt-4.1、Google Gemini 1.5 Pro、および人類のClaude 3 Opusの3つの主要な大手言語モデルをベンチマークしています。
データセットは、英語、アラビア語、インドネシア語の1,334の有害なメッセージと3,746の非装備のメッセージで構成されており、実質的な合意で2人のレビュアーによって独立して注釈が付けられています(Cohen’s Kappa = 0.83)。
統一されたプロンプトと決定論的設定を使用して、GPT-4.1は、F1スコア0.863、0.887の精度、および0.841のリコールで最高の全体的なバランスを達成しました。
ジェミニは、有害なポストの最大シェア(Recall = 0.875)にフラグを立てましたが、頻繁な誤検知のため、その精度は0.767に低下しました。
クロードは、0.920で最高の精度と0.022の最低の偽陽性率を提供しましたが、そのリコールは0.720に低下しました。
定性分析は、3つのモデルすべてが皮肉、コード化されたin辱、および混合言語のスラングに苦労していることを示しました。
これらの結果は、補完的なモデルを組み合わせ、会話のコンテキストを組み込み、過小評価された言語と暗黙の乱用のための微調整を組み合わせた節度パイプラインの必要性を強調しています。
データセットと完全なプロンプトの識別されたバージョンが公開され、自動化されたコンテンツモデレーションの再現性とさらなる進捗を促進するために公開されています。

要約(オリジナル)

As online platforms grow, comment sections increasingly host harassment that undermines user experience and well-being. This study benchmarks three leading large language models, OpenAI GPT-4.1, Google Gemini 1.5 Pro, and Anthropic Claude 3 Opus, on a corpus of 5,080 YouTube comments sampled from high-abuse threads in gaming, lifestyle, food vlog, and music channels. The dataset comprises 1,334 harmful and 3,746 non-harmful messages in English, Arabic, and Indonesian, annotated independently by two reviewers with substantial agreement (Cohen’s kappa = 0.83). Using a unified prompt and deterministic settings, GPT-4.1 achieved the best overall balance with an F1 score of 0.863, precision of 0.887, and recall of 0.841. Gemini flagged the highest share of harmful posts (recall = 0.875) but its precision fell to 0.767 due to frequent false positives. Claude delivered the highest precision at 0.920 and the lowest false-positive rate of 0.022, yet its recall dropped to 0.720. Qualitative analysis showed that all three models struggle with sarcasm, coded insults, and mixed-language slang. These results underscore the need for moderation pipelines that combine complementary models, incorporate conversational context, and fine-tune for under-represented languages and implicit abuse. A de-identified version of the dataset and full prompts is publicly released to promote reproducibility and further progress in automated content moderation.

arxiv情報

著者 Amel Muminovic
発行日 2025-05-28 16:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments はコメントを受け付けていません

Training RL Agents for Multi-Objective Network Defense Tasks

要約

狭い能力よりも幅広い能力を達成するトレーニングエージェントを強調するオープンエンドラーニング(OEL)は、堅牢性と一般化を達成するために、人工知能(AI)エージェントを開発するためのパラダイムとして浮上しています。
ただし、OELの利点を実証する有望な結果にもかかわらず、OELを適用して実際のサイバーセキュリティアプリケーションの自律剤を開発することは依然として課題です。
OELに触発されたトレーニングアプローチを提案して、自律的なネットワークディフェンダーを開発します。
私たちの結果は、他のドメインと同様に、OELの原則がサイバー防衛のために、より堅牢で一般化可能なエージェントに変換できることを示しています。
OELをネットワーク防御に適用するには、いくつかの技術的な課題に対処する必要があります。
最も重要なことは、目標、報酬、およびアクションスペースよりも一貫したインターフェイスを維持する、幅広いタスクの宇宙にタスク表現アプローチを提供することが重要です。
このようにして、学習エージェントは、さまざまなネットワーク条件、攻撃者の行動、およびディフェンダーの目標でトレーニングしながら、以前に獲得した知識を構築することができます。
ツールと結果により、サイバーセキュリティの問題を解決するためにAIを適用する研究に根本的に影響を与えることを目指しています。
具体的には、研究者がサイバー防衛のためにジムとベンチマークを開発するにつれて、私たちが私たちの仕事で提案するような一貫した表現を備えた多様なタスクを考慮することが最も重要です。

要約(オリジナル)

Open-ended learning (OEL) — which emphasizes training agents that achieve broad capability over narrow competency — is emerging as a paradigm to develop artificial intelligence (AI) agents to achieve robustness and generalization. However, despite promising results that demonstrate the benefits of OEL, applying OEL to develop autonomous agents for real-world cybersecurity applications remains a challenge. We propose a training approach, inspired by OEL, to develop autonomous network defenders. Our results demonstrate that like in other domains, OEL principles can translate into more robust and generalizable agents for cyber defense. To apply OEL to network defense, it is necessary to address several technical challenges. Most importantly, it is critical to provide a task representation approach over a broad universe of tasks that maintains a consistent interface over goals, rewards and action spaces. This way, the learning agent can train with varying network conditions, attacker behaviors, and defender goals while being able to build on previously gained knowledge. With our tools and results, we aim to fundamentally impact research that applies AI to solve cybersecurity problems. Specifically, as researchers develop gyms and benchmarks for cyber defense, it is paramount that they consider diverse tasks with consistent representations, such as those we propose in our work.

arxiv情報

著者 Andres Molina-Markham,Luis Robaina,Sean Steinle,Akash Trivedi,Derek Tsui,Nicholas Potteiger,Lauren Brandt,Ransom Winder,Ahmed Ridley
発行日 2025-05-28 16:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Training RL Agents for Multi-Objective Network Defense Tasks はコメントを受け付けていません

TabularQGAN: A Quantum Generative Model for Tabular Data

要約

この論文では、表形式データを合成するための新しい量子生成モデルを紹介します。
合成データは、実際のデータが不足またはプライベートであるシナリオでは価値があり、既存のデータセットを拡張または交換するために使用できます。
現実世界のエンタープライズデータは主に表形状で不均一であり、多くの場合、カテゴリと数値の特徴の混合を含むため、ヘルスケア、金融、ソフトウェアなどのさまざまな業界で非常に関連性があります。
柔軟なデータエンコーディングと、表形式データを効果的にモデル化するための新しい量子回路ANSATZを備えた量子生成敵対的なネットワークアーキテクチャを提案します。
提案されたアプローチは、MIMIC IIIのヘルスケアおよび成人国勢調査データセットでテストされ、主要な古典モデル、CTGAN、およびCopulaganに対する広範なベンチマークがあります。
実験結果は、SDMetricsの全体的な類似性スコアに関して、量子モデルが古典モデルを平均8.5%上回る一方で、古典モデルのパラメーターのパラメーターの0.072%しか使用しないことを示しています。
さらに、提案された量子モデルが有用で新しいサンプルを生成する能力を示す2つのカスタム設計のメトリックを使用して、モデルの一般化機能を評価します。
私たちの知る限り、これは表形式データを処理するための量子生成モデルを成功させる最初のデモンストレーションの1つであり、このタスクが量子コンピューターに適している可能性があることを示しています。

要約(オリジナル)

In this paper, we introduce a novel quantum generative model for synthesizing tabular data. Synthetic data is valuable in scenarios where real-world data is scarce or private, it can be used to augment or replace existing datasets. Real-world enterprise data is predominantly tabular and heterogeneous, often comprising a mixture of categorical and numerical features, making it highly relevant across various industries such as healthcare, finance, and software. We propose a quantum generative adversarial network architecture with flexible data encoding and a novel quantum circuit ansatz to effectively model tabular data. The proposed approach is tested on the MIMIC III healthcare and Adult Census datasets, with extensive benchmarking against leading classical models, CTGAN, and CopulaGAN. Experimental results demonstrate that our quantum model outperforms classical models by an average of 8.5% with respect to an overall similarity score from SDMetrics, while using only 0.072% of the parameters of the classical models. Additionally, we evaluate the generalization capabilities of the models using two custom-designed metrics that demonstrate the ability of the proposed quantum model to generate useful and novel samples. To our knowledge, this is one of the first demonstrations of a successful quantum generative model for handling tabular data, indicating that this task could be well-suited to quantum computers.

arxiv情報

著者 Pallavi Bhardwaj,Caitlin Jones,Lasse Dierich,Aleksandar Vučković
発行日 2025-05-28 16:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph | TabularQGAN: A Quantum Generative Model for Tabular Data はコメントを受け付けていません

ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLM

要約

知識グラフ(KGS)を統合して、大規模な言語モデル(LLM)の推論能力を強化することは、クレーム検証における新たな研究課題です。
KGSは、推論に適した構造化された意味的に豊富な表現を提供しますが、ほとんどの既存の検証方法は非構造化されたテキストコーパスに依存しており、KGSを効果的に活用する能力を制限しています。
さらに、強力な推論能力を持っているにもかかわらず、現代のLLMはマルチステップモジュラーパイプラインと適応せずにKGを介した推論に苦労しています。
これらの課題に対処するために、LLMの推論をKGSからの構造化された知識とシームレスに統合するエンドツーエンドのフレームワークであるrackpkgを提案します。
具体的には、rackPKGの主なアイデアは、軽量で専門のLLMを使用して入力クレームを擬似サブグラフとして表すことです。
これらの検索されたサブグラフは、汎用LLMによって処理され、最終的な評決と正当化が生成されます。
FACTKGデータセットでの広範な実験は、RACHEPKGが最新のパフォーマンスを達成し、複数のカテゴリでこの研究分野での強力なベースラインを9%〜12%の精度ポイントで上回ることを示しています。
さらに、rablePKGは、HoverやFeverousなどの非構造化データセットにゼロショットの一般化可能性を示し、KGSの構造化された知識とさまざまなLLMバックボーンにわたってLLM推論を効果的に組み合わせています。

要約(オリジナル)

Integrating knowledge graphs (KGs) to enhance the reasoning capabilities of large language models (LLMs) is an emerging research challenge in claim verification. While KGs provide structured, semantically rich representations well-suited for reasoning, most existing verification methods rely on unstructured text corpora, limiting their ability to effectively leverage KGs. Additionally, despite possessing strong reasoning abilities, modern LLMs struggle with multi-step modular pipelines and reasoning over KGs without adaptation. To address these challenges, we propose ClaimPKG, an end-to-end framework that seamlessly integrates LLM reasoning with structured knowledge from KGs. Specifically, the main idea of ClaimPKG is to employ a lightweight, specialized LLM to represent the input claim as pseudo-subgraphs, guiding a dedicated subgraph retrieval module to identify relevant KG subgraphs. These retrieved subgraphs are then processed by a general-purpose LLM to produce the final verdict and justification. Extensive experiments on the FactKG dataset demonstrate that ClaimPKG achieves state-of-the-art performance, outperforming strong baselines in this research field by 9%-12% accuracy points across multiple categories. Furthermore, ClaimPKG exhibits zero-shot generalizability to unstructured datasets such as HoVer and FEVEROUS, effectively combining structured knowledge from KGs with LLM reasoning across various LLM backbones.

arxiv情報

著者 Hoang Pham,Thanh-Do Nguyen,Khac-Hoai Nam Bui
発行日 2025-05-28 16:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLM はコメントを受け付けていません

Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems

要約

このペーパーでは、最近の新興大手言語モデル(LLM)エージェントコンセプトを使用して、統一された検索充電(RAG)システムの新しいアプローチを紹介します。
具体的には、LLMを基本的なコントローラーとして利用するエージェントLLMは、特に複雑な推論質問システム(たとえば、マルチホップクエリ)のために、RAGタスクの解釈可能性を可能にする有望なアプローチとなっています。
それにもかかわらず、以前の作業は主に、シングルホップまたはマルチホップアプローチのいずれかを個別に解決することに焦点を当てており、これらのアプローチのアプリケーションが実際のアプリケーションへのアプリケーションを制限しています。
この研究では、RAGシステムの有効性と解釈可能性を高める統合検索編成LLMシステムのエージェントユニラグと呼ばれるトレーニング可能なエージェントフレームワークを提案します。
主なアイデアは、LLMエージェントフレームワークを設計して、入力の複雑さに基づいて段階的なラグタスクを解決することです。同時に、シングルホップとマルチホップクエリをエンドツーエンドの方法で含めます。
さらに、小さなオープンソースLLMS(例:LLAMA-3-8B)の提案されたエージェントフレームワークを有効にするために、合成データセットであるSynagent-Ragを導入します。
結果は、さまざまなぼろきれベンチマークにわたる閉鎖ソースとより大きなオープンソースLLMと同等のパフォーマンスを示しています。
ソースコードとデータセットは、さらなる搾取のために公開されています。

要約(オリジナル)

This paper presents a novel approach for unified retrieval-augmented generation (RAG) systems using the recent emerging large language model (LLM) agent concept. Specifically, Agent LLM, which utilizes LLM as fundamental controllers, has become a promising approach to enable the interpretability of RAG tasks, especially for complex reasoning question-answering systems (e.g., multi-hop queries). Nonetheless, previous works mainly focus on solving RAG systems with either single-hop or multi-hop approaches separately, which limits the application of those approaches to real-world applications. In this study, we propose a trainable agent framework called Agent-UniRAG for unified retrieval-augmented LLM systems, which enhances the effectiveness and interpretability of RAG systems. The main idea is to design an LLM agent framework to solve RAG tasks step-by-step based on the complexity of the inputs, simultaneously including single-hop and multi-hop queries in an end-to-end manner. Furthermore, we introduce SynAgent-RAG, a synthetic dataset to enable the proposed agent framework for small open-source LLMs (e.g., Llama-3-8B). The results show comparable performances with closed-source and larger open-source LLMs across various RAG benchmarks. Our source code and dataset are publicly available for further exploitation.

arxiv情報

著者 Hoang Pham,Khac-Hoai Nam Bui
発行日 2025-05-28 16:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.IR | Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems はコメントを受け付けていません

Fusion Steering: Prompt-Specific Activation Control

要約

質問を回答(QA)タスクの大規模な言語モデル(LLM)の事実上精度を向上させるアクティベーションステアリング方法論である融合ステアリングを提示します。
このアプローチでは、フルレイヤーステアリングやセグメント化されたステアリングなど、柔軟なステアリング構成を導入します。
単一層または固定層操作に制約されている従来の方法とは異なり、Fusionステアリングは、すべての変圧器層にわたって迅速な特異的活性化デルタの動的注入を採用しています。
これらの活性化デルタは、意味的に濃縮された例固有のステアリングを促進するために、地上の真実の答えとモデル生成の説明を組み合わせた参照完了から導き出されます。
注入重みは、オプトナを使用してプロンプトごとに最適化され、トークンのオーバーラップ(事実のアライメント)と困惑(流fluencyプロキシ)のバランスをとる共同目標をターゲットにしています。
評価では、トークンのオーバーラップとLLMグレードの品質を統合した複合スコアを採用し、事実上の正確性、一貫性、および関連性を網羅しています。
260のSimpleQAプロンプト(ベースラインが失敗した500から選択)の経験的結果は、セグメント化されたステアリングの有効性を示しています。
8ビット量子化でGemma-2-2B-ITを使用して、セグメント化されたステアリングは25.4%($ \ geq 0.6 $のスコアがある出力)の精度を達成し、ベースラインを3.5%、フルレイヤーステアリングを16.2%で上回ります。
より厳しいSimpleQAルーブリックの下で、セグメント化されたステアリングブーストは、0.0%から13.1%の完全な応答を完全に修正します。
これらの発見は、セグメント化された動的介入戦略の強みと、序文ごとのフルネットワークの活性化制御の約束を強調しています。
融合ステアリングは、NeuronPediaやスパースクロスコダーなどのまばらな表現にも適しており、LLMSの解釈可能でスケーラブルな活性化レベルの制御の有望な方向を示唆しています。

要約(オリジナル)

We present Fusion Steering, an activation steering methodology that improves factual accuracy in large language models (LLMs) for question-answering (QA) tasks. This approach introduces flexible steering configurations, including full-layer steering and segmented steering. Unlike traditional methods constrained to single-layer or fixed-layer operations, Fusion Steering employs dynamic injection of prompt-specific activation deltas across all transformer layers. These activation deltas are derived from reference completions that combine the ground-truth answer with a model-generated explanation to facilitate semantically enriched, example-specific steering. The injection weights are optimized per prompt using Optuna, targeting a joint objective that balances token overlap (factual alignment) and perplexity (fluency proxy). Evaluation employs a composite score integrating token overlap and LLM-graded quality, encompassing factual accuracy, coherence, and relevance. Empirical results on 260 SimpleQA prompts (selected from 500 where the baseline failed) showcase the efficacy of segmented steering. Using Gemma-2-2B-IT with 8-bit quantization, segmented steering achieves an accuracy of 25.4% (outputs scoring $\geq 0.6$), outperforming the baseline at 3.5% and full-layer steering at 16.2%. Under the stricter SimpleQA rubric, segmented steering boosts fully correct responses from 0.0% to 13.1%. These findings highlight the strengths of segmented, dynamic intervention strategies and the promise of per-prompt, full-network activation control. Fusion Steering is also amenable to sparse representations, such as Neuronpedia or sparse crosscoders, suggesting a promising direction for interpretable and scalable activation-level control in LLMs.

arxiv情報

著者 Waldemar Chang,Alhassan Yasin
発行日 2025-05-28 16:46:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Fusion Steering: Prompt-Specific Activation Control はコメントを受け付けていません

GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git

要約

ソフトウェアエンジニアリング(SE)のベンチマーク(SE)AIエージェント、特にSWEベンチは、AIエージェントのプログラミング機能の進歩を触発しています。
ただし、バージョン制御システム(VCS)操作など、重要な開発者ワークフローを見落としています。
この問題に対処するために、VCSタスクでAIエージェントのパフォーマンスを評価するための新しいベンチマークであるGitGoodBenchを提示します。
Gitgoodbenchは、許容されるオープンソースPython、Java、およびKotlinリポジトリから抽出された3つのコアGitシナリオをカバーしています。
当社のベンチマークは、包括的な評価スイート(900サンプル)、迅速なプロトタイピングバージョン(120サンプル)、トレーニングコーパス(17,469サンプル)の3つのデータセットを提供します。
カスタムツールを装備したGPT-4oを使用して、ベンチマークのプロトタイピングバージョンでベースラインパフォーマンスを確立し、全体で21.11%の解決レートを達成します。
Gitgoodbenchは、単なるプログラミングを超えた真に包括的なSEエージェントに向けて、重要な足がかりとして機能することを期待しています。

要約(オリジナル)

Benchmarks for Software Engineering (SE) AI agents, most notably SWE-bench, have catalyzed progress in programming capabilities of AI agents. However, they overlook critical developer workflows such as Version Control System (VCS) operations. To address this issue, we present GitGoodBench, a novel benchmark for evaluating AI agent performance on VCS tasks. GitGoodBench covers three core Git scenarios extracted from permissive open-source Python, Java, and Kotlin repositories. Our benchmark provides three datasets: a comprehensive evaluation suite (900 samples), a rapid prototyping version (120 samples), and a training corpus (17,469 samples). We establish baseline performance on the prototyping version of our benchmark using GPT-4o equipped with custom tools, achieving a 21.11% solve rate overall. We expect GitGoodBench to serve as a crucial stepping stone toward truly comprehensive SE agents that go beyond mere programming.

arxiv情報

著者 Tobias Lindenbauer,Egor Bogomolov,Yaroslav Zharov
発行日 2025-05-28 16:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git はコメントを受け付けていません