Generative Agents for Multi-Agent Autoformalization of Interaction Scenarios

要約

マルチエージェントシミュレーションは、自然および人工薬剤間の相互作用を調査するための汎用性の高いツールですが、通常、その開発にはドメインの専門知識と手動の努力が必要です。
この作業では、マルチエージェントオートフォーマル化(GAMA)フレームワークの生成エージェントを紹介します。これは、大規模な言語モデル(LLM)で拡張されたエージェントを使用して、シミュレーションの相互作用シナリオの形式化を自動化します。
GAMAの適用を実証するために、ソーシャルインタラクションを表すゲーム理論シナリオの自然言語記述を使用し、それらを実行可能なロジックプログラムに自動形式化し、ゲームルールを定義します。
ランタイムの妥当性を確保するために、反復的なトーナメントベースの手順により、生成されたルールと戦略をテストし、その後、グラウンドトゥルースの結果が利用可能な場合に正確な意味検証が行われます。
5つの2×2の同時ムーブゲームにわたる110の自然言語記述を使用した実験では、GamaはClaude 3.5 Sonnetで100%の構文と76.5%のセマンティック正しさを達成し、GPT-4oで99.82%の構文とセマンティックの正しさを達成します。
また、このフレームワークは、自動形式化エージェントの戦略における高い意味精度を示しています。

要約(オリジナル)

Multi-agent simulations are versatile tools for exploring interactions among natural and artificial agents, but their development typically demands domain expertise and manual effort. This work introduces the Generative Agents for Multi-Agent Autoformalization (GAMA) framework, which automates the formalization of interaction scenarios in simulations using agents augmented with large language models (LLMs). To demonstrate the application of GAMA, we use natural language descriptions of game-theoretic scenarios representing social interactions, and we autoformalize them into executable logic programs defining game rules, with syntactic correctness enforced through a solver-based validation. To ensure runtime validity, an iterative, tournament-based procedure tests the generated rules and strategies, followed by exact semantic validation when ground truth outcomes are available. In experiments with 110 natural language descriptions across five 2×2 simultaneous-move games, GAMA achieves 100% syntactic and 76.5% semantic correctness with Claude 3.5 Sonnet, and 99.82% syntactic and 77% semantic correctness with GPT-4o. The framework also shows high semantic accuracy in autoformalizing agents’ strategies.

arxiv情報

著者 Agnieszka Mensfelt,Kostas Stathis,Vince Trencsenyi
発行日 2025-05-29 16:48:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Generative Agents for Multi-Agent Autoformalization of Interaction Scenarios はコメントを受け付けていません

Towards Unified Attribution in Explainable AI, Data-Centric AI, and Mechanistic Interpretability

要約

AIシステムの複雑さの増加により、行動が重要になりました。
モデルの動作を、入力機能、トレーニングデータ、および内部モデルコンポーネントの3つの重要な側面に起因する多数の解釈可能性方法が開発されています。これは、説明可能なAI、データ中心のAI、および機構的解釈可能性からそれぞれ出現しました。
ただし、これらの帰属方法はかなり独立して研究および適用されているため、方法と用語の断片化された風景が生じます。
このポジションペーパーでは、特徴、データ、およびコンポーネントの帰属方法が基本的な類似性を共有しており、それらの統一された見解は解釈可能性とより広範なAI研究の両方に役立つと主張しています。
この目的のために、最初にこれらの3種類の属性の一般的な方法を分析し、これらの一見明確な方法が異なる側面で同様の手法(摂動、勾配、線形近似など)を使用していることを示す統一ビューを提示します。
次に、この統一されたビューが既存の帰属方法の理解を高め、これらの方法の間で共有された概念と評価基準を強調する方法を示し、共通の課題に対処し、モデルの編集、操縦、および規制の適用により、共通の課題に対処し、より広くAIで新しい研究の方向性につながります。

要約(オリジナル)

The increasing complexity of AI systems has made understanding their behavior critical. Numerous interpretability methods have been developed to attribute model behavior to three key aspects: input features, training data, and internal model components, which emerged from explainable AI, data-centric AI, and mechanistic interpretability, respectively. However, these attribution methods are studied and applied rather independently, resulting in a fragmented landscape of methods and terminology. This position paper argues that feature, data, and component attribution methods share fundamental similarities, and a unified view of them benefits both interpretability and broader AI research. To this end, we first analyze popular methods for these three types of attributions and present a unified view demonstrating that these seemingly distinct methods employ similar techniques (such as perturbations, gradients, and linear approximations) over different aspects and thus differ primarily in their perspectives rather than techniques. Then, we demonstrate how this unified view enhances understanding of existing attribution methods, highlights shared concepts and evaluation criteria among these methods, and leads to new research directions both in interpretability research, by addressing common challenges and facilitating cross-attribution innovation, and in AI more broadly, with applications in model editing, steering, and regulation.

arxiv情報

著者 Shichang Zhang,Tessa Han,Usha Bhalla,Himabindu Lakkaraju
発行日 2025-05-29 16:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards Unified Attribution in Explainable AI, Data-Centric AI, and Mechanistic Interpretability はコメントを受け付けていません

Securing AI Agents with Information-Flow Control

要約

AIエージェントがますます自律的で能力が高まるにつれて、迅速な注入などの脆弱性に対するセキュリティが重要になります。
このペーパーでは、AIエージェントにセキュリティ保証を提供するために、情報フロー制御(IFC)の使用を調査します。
エージェントプランナーのセキュリティと表現力について推論するための正式なモデルを提示します。
このモデルを使用して、ダイナミックな汚染トラッキングによって強制力のあるプロパティのクラスを特徴付け、プランナー設計のセキュリティとユーティリティトレードオフを評価するためのタスクの分類法を構築します。
この探索に通知されて、Fidesを紹介します。Fidesは、機密性と整合性ラベルを追跡し、セキュリティポリシーを決定的に実施し、選択的に隠すための新しいプリミティブを導入するプランナーです。
Agentdojoでの評価は、このアプローチが安全に達成できるタスクの範囲を広げることを示しています。
論文で紹介されたコンセプトを読者に散歩するためのチュートリアルは、https://github.com/microsoft/fidesにあります

要約(オリジナル)

As AI agents become increasingly autonomous and capable, ensuring their security against vulnerabilities such as prompt injection becomes critical. This paper explores the use of information-flow control (IFC) to provide security guarantees for AI agents. We present a formal model to reason about the security and expressiveness of agent planners. Using this model, we characterize the class of properties enforceable by dynamic taint-tracking and construct a taxonomy of tasks to evaluate security and utility trade-offs of planner designs. Informed by this exploration, we present Fides, a planner that tracks confidentiality and integrity labels, deterministically enforces security policies, and introduces novel primitives for selectively hiding information. Its evaluation in AgentDojo demonstrates that this approach broadens the range of tasks that can be securely accomplished. A tutorial to walk readers through the the concepts introduced in the paper can be found at https://github.com/microsoft/fides

arxiv情報

著者 Manuel Costa,Boris Köpf,Aashish Kolluri,Andrew Paverd,Mark Russinovich,Ahmed Salem,Shruti Tople,Lukas Wutschitz,Santiago Zanella-Béguelin
発行日 2025-05-29 16:50:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Securing AI Agents with Information-Flow Control はコメントを受け付けていません

Burger: Robust Graph Denoising-augmentation Fusion and Multi-semantic Modeling in Social Recommendation

要約

ソーシャルメディアの急速な発展の時代では、ハイブリッド推奨システムとしてのソーシャル推奨システムが広く適用されています。
既存の方法は、ユーザー間の関心の類似性をキャプチャして、ソーシャルネットワークでの関心と関連性のある関係を除外する推奨事項の精度を必然的に減少させますが、限られた研究はソーシャルネットワークとユーザーアイテムインタラクションネットワークの間のセマンティック情報の相互影響に焦点を当てており、ソーシャル推奨をさらに改善します。
これらの問題に対処するために、ro \ underline {bu} st g \ underline {r} aph denoisin \ underline {g} -augmentation fusion and multi-s \ underline {e}マンチモデリング(バーガー)を使用したソーシャル\下線{r} ecommendationモデルを紹介します。
具体的には、モデルのトレーニングプロセスを滑らかにするために、まずソーシャルテンソルを構築することを提案します。
次に、グラフの畳み込みネットワークとテンソルの畳み込みネットワークを使用して、それぞれユーザーのアイテムの好みと社会的好みをキャプチャします。
ユーザー項目のインタラクションネットワークとソーシャルネットワークのさまざまなセマンティック情報を考慮すると、セマンティック情報の相互影響をモデル化するために、バイセマンチックな調整損失が提案されています。
多文字のモデリングに関する関心と関係のある関係の干渉を軽減するために、さらにベイジアン事後確率を使用して、社会的騒音を置き換えるために潜在的な社会的関係を採掘します。
最後に、スライディングウィンドウメカニズムを使用して、次の反復の入力としてソーシャルテンソルを更新します。
3つの実際のデータセットでの広範な実験は、ハンバーガーが最先端のモデルと比較して優れた性能を持っていることを示しています。

要約(オリジナル)

In the era of rapid development of social media, social recommendation systems as hybrid recommendation systems have been widely applied. Existing methods capture interest similarity between users to filter out interest-irrelevant relations in social networks that inevitably decrease recommendation accuracy, however, limited research has a focus on the mutual influence of semantic information between the social network and the user-item interaction network for further improving social recommendation. To address these issues, we introduce a social \underline{r}ecommendation model with ro\underline{bu}st g\underline{r}aph denoisin\underline{g}-augmentation fusion and multi-s\underline{e}mantic Modeling(Burger). Specifically, we firstly propose to construct a social tensor in order to smooth the training process of the model. Then, a graph convolutional network and a tensor convolutional network are employed to capture user’s item preference and social preference, respectively. Considering the different semantic information in the user-item interaction network and the social network, a bi-semantic coordination loss is proposed to model the mutual influence of semantic information. To alleviate the interference of interest-irrelevant relations on multi-semantic modeling, we further use Bayesian posterior probability to mine potential social relations to replace social noise. Finally, the sliding window mechanism is utilized to update the social tensor as the input for the next iteration. Extensive experiments on three real datasets show Burger has a superior performance compared with the state-of-the-art models.

arxiv情報

著者 Yuqin Lan,Laurence T. Yang
発行日 2025-05-29 16:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.SI, F.2.2 | Burger: Robust Graph Denoising-augmentation Fusion and Multi-semantic Modeling in Social Recommendation はコメントを受け付けていません

Carbon-Efficient 3D DNN Acceleration: Optimizing Performance and Sustainability

要約

深いニューラルネットワーク(DNNS)が人工知能の進歩を引き続き促進するにつれて、ハードウェアアクセラレータの設計は、複雑な製造プロセスにより、具体化された二酸化炭素排出量に対する懸念の高まりに直面しています。
3D統合はパフォーマンスを向上させますが、持続可能性の課題を導入し、炭素認識の最適化を不可欠にします。
この作業では、3D DNN加速器の炭素効率の高い設計方法論を提案し、炭素遅延製品(CDP)を最適化するために、近似コンピューティングと遺伝的アルゴリズムベースの設計スペース探索を活用します。
面積効果のあるおおよその乗数を乗数蓄積(MAC)ユニットに統合することにより、当社のアプローチは、高い計算精度を維持しながら、シリコン領域と製造オーバーヘッドを効果的に削減します。
3つのテクノロジーノード(45nm、14nm、および7nm)にわたる実験的評価は、私たちの方法が、精度が無視できる低下で具体化された炭素を最大30%減少させることを示しています。

要約(オリジナル)

As Deep Neural Networks (DNNs) continue to drive advancements in artificial intelligence, the design of hardware accelerators faces growing concerns over embodied carbon footprint due to complex fabrication processes. 3D integration improves performance but introduces sustainability challenges, making carbon-aware optimization essential. In this work, we propose a carbon-efficient design methodology for 3D DNN accelerators, leveraging approximate computing and genetic algorithm-based design space exploration to optimize Carbon Delay Product (CDP). By integrating area-efficient approximate multipliers into Multiply-Accumulate (MAC) units, our approach effectively reduces silicon area and fabrication overhead while maintaining high computational accuracy. Experimental evaluations across three technology nodes (45nm, 14nm, and 7nm) show that our method reduces embodied carbon by up to 30% with negligible accuracy drop.

arxiv情報

著者 Aikaterini Maria Panteleaki,Konstantinos Balaskas,Georgios Zervakis,Hussam Amrouch,Iraklis Anagnostopoulos
発行日 2025-05-29 16:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR | Carbon-Efficient 3D DNN Acceleration: Optimizing Performance and Sustainability はコメントを受け付けていません

Keyed Chaotic Tensor Transformations for Secure And Attributable Neural Inference

要約

この作業では、重要なカオス動的変換に基づいて、安全でプライバシーを提供するニューラルネットワーク推論のための新しいフレームワークを紹介します。
提案された方法は、認証された推論、テンソルレベルの透かし、およびデータの帰属を可能にする、決定論的な暗号化されたシードされたカオスシステムをテンソルに適用し、認証された推論、テンソルレベルの透かしを可能にする非可逆的でユーザー固有の変換を生成します。
このフレームワークは、従来の暗号化技術のスケーラブルで軽量な代替品を提供し、AIシステムのテンソルレベルのセキュリティの新しい方向性を確立します。

要約(オリジナル)

This work introduces a novel framework for secure and privacy-preserving neural network inference based on keyed chaotic dynamical transformations. The proposed method applies a deterministic, cryptographically seeded chaotic system to tensors, producing non-invertible, user-specific transformations that enable authenticated inference, tensor-level watermarking, and data attribution. This framework offers a scalable and lightweight alternative to conventional cryptographic techniques, and establishes a new direction for tensor-level security in AI systems.

arxiv情報

著者 Peter David Fagan
発行日 2025-05-29 17:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37N25, 68T05, 94A60, cs.AI, cs.CR, D.4.6 | Keyed Chaotic Tensor Transformations for Secure And Attributable Neural Inference はコメントを受け付けていません

Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation

要約

最近のデコード方法は、大規模な言語モデル〜(LLMS)の事実を改善します。
これらの方法は通常、トークンレベルで動作し、内部表現を活用して表面的なパターンを抑制します。
それにもかかわらず、LLMは、特に長いコンテキストで幻覚を起こしやすいままです。
この論文では、生成中に対照的なレイヤーをいつ適用するかを積極的に決定する新しいデコード戦略であるアクティブレイヤー制御デコード(ACTLCD)を提案します。
Decodingを連続する意思決定の問題として鋳造することにより、ATLCDは、トークンレベルを超えて事実を最適化するために報酬を受け取る分類器に導かれた強化学習ポリシーを採用しています。
私たちの実験は、Actlcdが5つのベンチマークにわたって最先端の方法を上回ることを示しており、多様な世代シナリオでの幻覚を緩和する際の有効性を示しています。

要約(オリジナル)

Recent decoding methods improve the factuality of large language models~(LLMs) by refining how the next token is selected during generation. These methods typically operate at the token level, leveraging internal representations to suppress superficial patterns. Nevertheless, LLMs remain prone to hallucinations, especially over longer contexts. In this paper, we propose Active Layer-Contrastive Decoding (ActLCD), a novel decoding strategy that actively decides when to apply contrasting layers during generation. By casting decoding as a sequential decision-making problem, ActLCD employs a reinforcement learning policy guided by a reward-aware classifier to optimize factuality beyond the token level. Our experiments demonstrate that ActLCD surpasses state-of-the-art methods across five benchmarks, showcasing its effectiveness in mitigating hallucinations in diverse generation scenarios.

arxiv情報

著者 Hongxiang Zhang,Hao Chen,Tianyi Zhang,Muhao Chen
発行日 2025-05-29 17:07:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation はコメントを受け付けていません

Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models

要約

テーブルは、データを整理および分析するための基本的な構造であり、インテリジェントシステムの重要な機能を理解する効果的なテーブルを実現します。
大規模な言語モデル(LMS)は強力な一般的な推論能力を示していますが、特に複雑なシナリオでは、表形式データに対する正確な数値的または象徴的な推論と闘い続けています。
スプレッドシート式は、実行可能なシンボリック操作を表現するための強力で表現力豊かな媒体を提供し、ほとんど十分に十分ではないままの豊富な推論パターンをエンコードします。
このホワイトペーパーでは、LMSを訓練する強化学習(RL)フレームワークであるフォーミュラチューニング(Fortune)を提案します。
フォーミュラチューニングは、バイナリの回答の正確性を報酬信号として使用し、推論を通してフォーミュラの導出を学習するように導くことにより、監督されたフォーミュラアノテーションへの依存を減らします。
私たちは、その利点の理論的分析を提供し、7つのテーブル推論ベンチマークでの広範な実験を通じてその有効性を実証します。
フォーミュラチューニングは、特にマルチステップ数値および象徴的な推論タスクでLMパフォーマンスを大幅に向上させ、7Bモデルがテーブルの理解でO1を上回ることができます。
これは、フォーミュラ駆動型RLがLMSの象徴的なテーブル推論を進める可能性を強調しています。

要約(オリジナル)

Tables are a fundamental structure for organizing and analyzing data, making effective table understanding a critical capability for intelligent systems. While large language models (LMs) demonstrate strong general reasoning abilities, they continue to struggle with accurate numerical or symbolic reasoning over tabular data, especially in complex scenarios. Spreadsheet formulas provide a powerful and expressive medium for representing executable symbolic operations, encoding rich reasoning patterns that remain largely underutilized. In this paper, we propose Formula Tuning (Fortune), a reinforcement learning (RL) framework that trains LMs to generate executable spreadsheet formulas for question answering over general tabular data. Formula Tuning reduces the reliance on supervised formula annotations by using binary answer correctness as a reward signal, guiding the model to learn formula derivation through reasoning. We provide a theoretical analysis of its advantages and demonstrate its effectiveness through extensive experiments on seven table reasoning benchmarks. Formula Tuning substantially enhances LM performance, particularly on multi-step numerical and symbolic reasoning tasks, enabling a 7B model to outperform O1 on table understanding. This highlights the potential of formula-driven RL to advance symbolic table reasoning in LMs.

arxiv情報

著者 Lang Cao,Jingxian Xu,Hanbing Liu,Jinyu Wang,Mengyu Zhou,Haoyu Dong,Shi Han,Dongmei Zhang
発行日 2025-05-29 17:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Fortune: Formula-Driven Reinforcement Learning for Symbolic Table Reasoning in Language Models はコメントを受け付けていません

SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression

要約

LLMの従来のモデル圧縮技術は、高いメモリ消費と遅い推論の課題に対処しますが、通常、精度を維持するために計算上の高価な再訓練が必要です。
対照的に、ワンショット圧縮方法は再訓練コストを排除しますが、密なモデルに匹敵する精度を達成するのに苦労しています。
このペーパーでは、ハードウェアに優しい量子化、スパース、低ランクの近似を統合プロセスに総合的に統合する新しいワンショット圧縮フレームワークであるSlimを紹介します。
まず、均一な量子化を適用できるようにする確率的アプローチ(スリムQuant)を使用して量子化プロセスを策定します。
次に、既存のワンショット剪定法を使用して、量子化された重量の上に半構造化されたスパースを適用します。
最後に、導入された集計された量子化とスパースエラーを補うために、低ランクアダプターの値を数学的に計算できるようにするユニークな変換性および加算機能を備えた新しい顕著性関数を使用します。
Slimは、4ビット重量量化を伴う2:4スパースでモデルの精度を最大5.66%(Llama-2-7b)に改善し、以前の方法を上回ります。
SLIMで圧縮されたモデルは、それぞれNVIDIA RTX3060およびA100 GPUで最大4.3倍と3.8倍に達します。
さらに、彼らは、密集した対応物と比較して、最大0.23倍のエンドツーエンドのメモリの減少を達成します。
また、微調整せずにSLIMと比較して、精度を最大1.66%(LLAMA-2-13B)にさらに改善するオプションのPEFTレシピも提案します。

要約(オリジナル)

Conventional model compression techniques for LLMs address high memory consumption and slow inference challenges but typically require computationally expensive retraining to preserve accuracy. In contrast, one-shot compression methods eliminate retraining cost, but struggle to achieve accuracy comparable to dense models. This paper presents SLIM, a new one-shot compression framework that holistically integrates hardware-friendly quantization, sparsity, and low-rank approximation into a unified process. First, we formulate the quantization process using a probabilistic approach (SLIM-Quant) that enables us to apply uniform quantization. Then, we use an existing one-shot pruning method to apply semi-structured sparsity on top of the quantized weights. Finally, to compensate for the introduced aggregated quantization and sparsity error, we use a novel saliency function with unique invertible and additive features that enables us to mathematically compute the value of low-rank adapters. SLIM improves model accuracy by up to 5.66% (LLaMA-2-7B) for 2:4 sparsity with 4-bit weight quantization, outperforming prior methods. Models compressed with SLIM achieve up to 4.3x and 3.8x on Nvidia RTX3060 and A100 GPUs, respectively. Additionally, they achieve up to 0.23x end-to-end memory reduction in comparison to their dense counterparts. We also propose an optional PEFT recipe that further improves accuracy by up to 1.66% (LLaMA-2-13B) compared to SLIM without fine-tuning.

arxiv情報

著者 Mohammad Mozaffari,Amir Yazdanbakhsh,Maryam Mehri Dehnavi
発行日 2025-05-29 17:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PF | SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression はコメントを受け付けていません

GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

要約

高性能ソフトウェアの開発は、専門的な専門知識を必要とする複雑なタスクです。
高性能ソフトウェアの開発における言語モデルの機能を評価するためのベンチマークであるGSOを紹介します。
パフォーマンステストを生成および実行する自動化されたパイプラインを開発し、リポジトリのコミット履歴を分析して、10のコードベースにわたって102の挑戦的な最適化タスクを特定し、多様なドメインとプログラミング言語にまたがります。
エージェントには、正確な仕様としてコードベースとパフォーマンステストが提供され、エキスパート開発者の最適化に対して測定されるランタイム効率の向上を任されます。
私たちの定量的評価は、主要なSwe-Agentsが大幅に苦労し、5%未満の成功率を達成し、推論時間スケーリングでも改善が限られていることを明らかにしています。
当社の定性分析では、低レベルの言語の難しさ、怠zyな最適化戦略の実践、正確にローカライズするボトルネックの課題など、重要な障害モードを特定します。
ベンチマークのコードとアーティファクトをエージェントの軌跡とともにリリースして、将来の研究を可能にします。

要約(オリジナル)

Developing high-performance software is a complex task that requires specialized expertise. We introduce GSO, a benchmark for evaluating language models’ capabilities in developing high-performance software. We develop an automated pipeline that generates and executes performance tests to analyze repository commit histories to identify 102 challenging optimization tasks across 10 codebases, spanning diverse domains and programming languages. An agent is provided with a codebase and performance test as a precise specification, and tasked to improve the runtime efficiency, which is measured against the expert developer optimization. Our quantitative evaluation reveals that leading SWE-Agents struggle significantly, achieving less than 5% success rate, with limited improvements even with inference-time scaling. Our qualitative analysis identifies key failure modes, including difficulties with low-level languages, practicing lazy optimization strategies, and challenges in accurately localizing bottlenecks. We release the code and artifacts of our benchmark along with agent trajectories to enable future research.

arxiv情報

著者 Manish Shetty,Naman Jain,Jinjian Liu,Vijay Kethanaboyina,Koushik Sen,Ion Stoica
発行日 2025-05-29 17:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents はコメントを受け付けていません