SHA256 at SemEval-2025 Task 4: Selective Amnesia — Constrained Unlearning for Large Language Models via Knowledge Isolation

要約

大規模な言語モデル(LLM)は、トレーニング中に機密情報を頻繁に記憶し、公開されたモデルを展開する際にリスクをもたらします。
現在のマシンの未学習方法は、全体的なモデル機能を分解することなく、特定のデータ関連を選択的に削除するのに苦労しています。
このホワイトペーパーでは、Semeval-2025タスク4のターゲットを絞った未学生のタスク4のソリューションを提示します。これは、因果調停分析と層固有の最適化を組み合わせた2段階の方法論を導入します。
OLMOアーキテクチャ(1Bおよび7Bパラメーター)での体系的な因果追跡実験を通じて、MLPモジュール内のサブジェクトアトリビングアソシエーションを保存する際の最初の数少ない変圧器層(層0〜5)の重要な役割を特定します。
この洞察に基づいて、上層層をフリーズする制約された最適化アプローチを開発し、新しい関節損失関数を適用して、出力トークンクロスエントロピーペナルティを介して忘却セット損失を最大化し、適応型正規化を介した保持セット偏差を最小化します。
私たちの方法は、1Bモデルトラックで2位を達成し、ベースラインMMLUの精度の88%を維持しながら強力なタスクパフォ​​ーマンスを示しています。
これらの結果は、LLMSでの効率的で正確な学習のための有望なパラダイムとして因果関係のある層の最適化を確立し、AIシステムのデータプライバシーの懸念に対処する際に大きな前進を提供します。

要約(オリジナル)

Large language models (LLMs) frequently memorize sensitive information during training, posing risks when deploying publicly accessible models. Current machine unlearning methods struggle to selectively remove specific data associations without degrading overall model capabilities. This paper presents our solution to SemEval-2025 Task 4 on targeted unlearning, which introduces a two-stage methodology that combines causal mediation analysis with layer-specific optimization. Through systematic causal tracing experiments on OLMo architectures (1B and 7B parameters), we identify the critical role of the first few transformer layers (layers 0-5) in storing subject-attribute associations within MLP modules. Building on this insight, we develop a constrained optimization approach that freezes upper layers while applying a novel joint loss function to lower layers-simultaneously maximizing forget set loss via output token cross-entropy penalties and minimizing retain set deviation through adaptive regularization. Our method achieves 2nd place in the 1B model track, demonstrating strong task performance while maintaining 88% of baseline MMLU accuracy. These results establish causal-informed layer optimization as a promising paradigm for efficient, precise unlearning in LLMs, offering a significant step forward in addressing data privacy concerns in AI systems.

arxiv情報

著者 Saransh Agrawal,Kuan-Hao Huang
発行日 2025-04-17 15:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SHA256 at SemEval-2025 Task 4: Selective Amnesia — Constrained Unlearning for Large Language Models via Knowledge Isolation はコメントを受け付けていません

InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning

要約

大規模な言語モデル(LLMS)の最近の進歩により、複雑なタスクを計画するためのエージェントとしての使用が可能になりました。
既存の方法は通常、LLMパフォーマンスを向上させるために思考アクション – 観測(TAO)プロセスに依存していますが、これらのアプローチは、LLMSの複雑なタスクに関する限られた知識によって制約されることがよくあります。
検索されたジェネレーション(RAG)は、取得された情報の地上生成に外部データベースを活用することにより、新しい機会を提供します。
このホワイトペーパーでは、タスク計画にRAGを適用する際の2つの重要な課題(拡大性と移転性)を特定します。
これらの課題に対処するために、マルチエージェントメタ補強学習フレームワーク内の新しいソリューションであるInstructragを提案します。
Instructragには、過去の命令パス(正しいアクションのシーケンス)を整理するためのグラフ、拡大性のためのグラフカバレッジを拡張するための補強学習を備えたRL-Agent、および転送可能性のためのタスク一般化を改善するML-Agentが含まれます。
2つのエージェントは、全体的な計画パフォーマンスを最適化するためにエンドツーエンドのトレーニングを受けています。
4つの広く使用されているタスク計画データセットの実験は、インストラクトラグがパフォーマンスを大幅に向上させ、新しいタスクに効率的に適応することを示しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have enabled their use as agents for planning complex tasks. Existing methods typically rely on a thought-action-observation (TAO) process to enhance LLM performance, but these approaches are often constrained by the LLMs’ limited knowledge of complex tasks. Retrieval-augmented generation (RAG) offers new opportunities by leveraging external databases to ground generation in retrieved information. In this paper, we identify two key challenges (enlargability and transferability) in applying RAG to task planning. We propose InstructRAG, a novel solution within a multi-agent meta-reinforcement learning framework, to address these challenges. InstructRAG includes a graph to organize past instruction paths (sequences of correct actions), an RL-Agent with Reinforcement Learning to expand graph coverage for enlargability, and an ML-Agent with Meta-Learning to improve task generalization for transferability. The two agents are trained end-to-end to optimize overall planning performance. Our experiments on four widely used task planning datasets demonstrate that InstructRAG significantly enhances performance and adapts efficiently to new tasks, achieving up to a 19.2% improvement over the best existing approach.

arxiv情報

著者 Zheng Wang,Shu Xian Teo,Jun Jie Chew,Wei Shi
発行日 2025-04-17 15:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | InstructRAG: Leveraging Retrieval-Augmented Generation on Instruction Graphs for LLM-Based Task Planning はコメントを受け付けていません

GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

要約

強化学習(RL)は、監視された微調整(SFT)に広く依存せずに、大規模な言語モデルの推論能力を直接強化できます。
この作業では、従来のポリシーグラデーション(PG)メカニズムを再訪し、グループポリシーグラジエント(GPG)と呼ばれるミニマリストRLアプローチを提案します。
従来の方法とは異なり、GPGは元のRL目標を直接最適化し、サロゲート損失関数の必要性を回避します。
批評家と参照モデルを排除し、KLの発散の制約を回避し、利点と勾配推定バイアスに対処することにより、私たちのアプローチは、グループ相対政策最適化(GRPO)と比較してトレーニングプロセスを大幅に簡素化します。
私たちのアプローチは、補助技術や調整に依存することなく、優れたパフォーマンスを実現します。
図1に示すように、広範な実験は、この方法が計算コストを削減するだけでなく、さまざまな単峰性およびマルチモーダルタスクでGRPOを一貫して上回ることを示しています。
私たちのコードは、https://github.com/amap-ml/gpgで入手できます。

要約(オリジナル)

Reinforcement Learning (RL) can directly enhance the reasoning capabilities of large language models without extensive reliance on Supervised Fine-Tuning (SFT). In this work, we revisit the traditional Policy Gradient (PG) mechanism and propose a minimalist RL approach termed Group Policy Gradient (GPG). Unlike conventional methods, GPG directly optimize the original RL objective, thus obviating the need for surrogate loss functions. By eliminating the critic and reference models, avoiding KL divergence constraints, and addressing the advantage and gradient estimation bias, our approach significantly simplifies the training process compared to Group Relative Policy Optimization (GRPO). Our approach achieves superior performance without relying on auxiliary techniques or adjustments. As illustrated in Figure 1, extensive experiments demonstrate that our method not only reduces computational costs but also consistently outperforms GRPO across various unimodal and multimodal tasks. Our code is available at https://github.com/AMAP-ML/GPG.

arxiv情報

著者 Xiangxiang Chu,Hailang Huang,Xiao Zhang,Fei Wei,Yong Wang
発行日 2025-04-17 15:53:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning はコメントを受け付けていません

Impact of Data Duplication on Deep Neural Network-Based Image Classifiers: Robust vs. Standard Models

要約

敵対的な攻撃に対する機械学習モデルの正確性と堅牢性は、トレーニングデータ品質、モデルアーキテクチャ、トレーニングプロセス、展開環境などの要因によって大きく影響されます。
近年、トレーニングセット、特に言語モデルの複製データがかなりの注目を集めています。
重複排除により、言語モデルのトレーニングパフォーマンスとモデルの精度の両方が向上することが示されています。
トレーニング画像分類器ディープニューラルネットワーク(DNNS)におけるデータ品質の重要性は広く認識されていますが、モデルの一般化とパフォーマンスに関するトレーニングセットにおける重複した画像の影響はほとんど注目されていません。
この論文では、このギャップに対処し、画像分類における重複の効果に関する包括的な研究を提供します。
私たちの分析は、トレーニングセットに重複した画像の存在がモデルトレーニングの効率に悪影響を与えるだけでなく、画像分類器の精度が低下する可能性があることを示しています。
重複に対する重複のこのマイナスの影響は、複製されたデータがクラス全体で不均一なものである場合、または均一でまたは不均一なものであろうと、敵対的に訓練されたモデルのトレーニングセットで発生する場合に特に顕著です。
重複したサンプルが均一な方法で選択されている場合でも、重複の量を増やしても、精度が大幅に改善されることはありません。

要約(オリジナル)

The accuracy and robustness of machine learning models against adversarial attacks are significantly influenced by factors such as training data quality, model architecture, the training process, and the deployment environment. In recent years, duplicated data in training sets, especially in language models, has attracted considerable attention. It has been shown that deduplication enhances both training performance and model accuracy in language models. While the importance of data quality in training image classifier Deep Neural Networks (DNNs) is widely recognized, the impact of duplicated images in the training set on model generalization and performance has received little attention. In this paper, we address this gap and provide a comprehensive study on the effect of duplicates in image classification. Our analysis indicates that the presence of duplicated images in the training set not only negatively affects the efficiency of model training but also may result in lower accuracy of the image classifier. This negative impact of duplication on accuracy is particularly evident when duplicated data is non-uniform across classes or when duplication, whether uniform or non-uniform, occurs in the training set of an adversarially trained model. Even when duplicated samples are selected in a uniform way, increasing the amount of duplication does not lead to a significant improvement in accuracy.

arxiv情報

著者 Alireza Aghabagherloo,Aydin Abadi,Sumanta Sarkar,Vishnu Asutosh Dasu,Bart Preneel
発行日 2025-04-17 16:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.IV | Impact of Data Duplication on Deep Neural Network-Based Image Classifiers: Robust vs. Standard Models はコメントを受け付けていません

SparseDM: Toward Sparse Efficient Diffusion Models

要約

拡散モデルは、画像とビデオ生成に広く使用されている生成モデルの強力なファミリーを表しています。
ただし、時間のかかる展開、長い推論時間、および大規模なメモリの要件は、リソースが制約されたデバイスでアプリケーションを妨げます。
この論文では、拡散モデルの展開効率を改善するための改善されたストレートスルー推定器に基づいた方法を提案します。
具体的には、事前に訓練された拡散モデルの畳み込みと線形層にスパースマスクを追加し、微調整段階でスパースモデルを学習し、推論中にスパースマスクをオンにします。
トランスとUNETベースの拡散モデルの実験結果は、FIDを維持しながら、この方法がMacを50%減らすことを示しています。
まばらなモデルは、GPUで約1.2倍に加速されます。
他のMac条件下では、FIDも他の方法と比較して1未満です。

要約(オリジナル)

Diffusion models represent a powerful family of generative models widely used for image and video generation. However, the time-consuming deployment, long inference time, and requirements on large memory hinder their applications on resource constrained devices. In this paper, we propose a method based on the improved Straight-Through Estimator to improve the deployment efficiency of diffusion models. Specifically, we add sparse masks to the Convolution and Linear layers in a pre-trained diffusion model, then transfer learn the sparse model during the fine-tuning stage and turn on the sparse masks during inference. Experimental results on a Transformer and UNet-based diffusion models demonstrate that our method reduces MACs by 50% while maintaining FID. Sparse models are accelerated by approximately 1.2x on the GPU. Under other MACs conditions, the FID is also lower than 1 compared to other methods.

arxiv情報

著者 Kafeng Wang,Jianfei Chen,He Li,Zhenpeng Mi,Jun Zhu
発行日 2025-04-17 16:05:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SparseDM: Toward Sparse Efficient Diffusion Models はコメントを受け付けていません

Design Topological Materials by Reinforcement Fine-Tuned Generative Model

要約

トポロジカル絶縁体(TI)およびトポロジカル結晶絶縁体(TCI)は、型破りな電子特性を備えた材料であり、その発見は実用的なアプリケーションにとって非常に価値があります。
ただし、そのような材料、特にフルバンドギャップを持つ材料は希少なままです。
候補者の既知の材料をスキャンする従来のアプローチの限界を考えると、生成モデルを通じて新しいトポロジー材料の生成に焦点を当てます。
具体的には、事前に訓練された生成モデルに強化微調整(REFT)を適用し、それにより、モデルの目標を材料設計目標に合わせます。
REFTは、生成された材料の安定性の妥協を最小限に抑えて、TISとTCIを生成するモデルの能力を高めるのに効果的であることを実証します。
微調整されたモデルを使用して、Ge $ _2 $ _2 $ _2 $ o $ _6 $が代表的な例として機能する多数の新しいトポロジ材料を正常に識別します。

要約(オリジナル)

Topological insulators (TIs) and topological crystalline insulators (TCIs) are materials with unconventional electronic properties, making their discovery highly valuable for practical applications. However, such materials, particularly those with a full band gap, remain scarce. Given the limitations of traditional approaches that scan known materials for candidates, we focus on the generation of new topological materials through a generative model. Specifically, we apply reinforcement fine-tuning (ReFT) to a pre-trained generative model, thereby aligning the model’s objectives with our material design goals. We demonstrate that ReFT is effective in enhancing the model’s ability to generate TIs and TCIs, with minimal compromise on the stability of the generated materials. Using the fine-tuned model, we successfully identify a large number of new topological materials, with Ge$_2$Bi$_2$O$_6$ serving as a representative example–a TI with a full band gap of 0.26 eV, ranking among the largest known in this category.

arxiv情報

著者 Haosheng Xu,Dongheng Qian,Zhixuan Liu,Yadong Jiang,Jing Wang
発行日 2025-04-17 16:05:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI | Design Topological Materials by Reinforcement Fine-Tuned Generative Model はコメントを受け付けていません

Aspect-Based Summarization with Self-Aspect Retrieval Enhanced Generation

要約

アスペクトベースの要約は、特定の側面に合わせて調整された要約を生成することを目的としており、リソースの制約と従来の要約アプローチの限られた一般化可能性に対処します。
最近、大規模な言語モデルは、トレーニングを必要とせずにこのタスクで約束を示しています。
しかし、彼らは迅速なエンジニアリングに過度に依存しており、特にコンテキスト内の学習に伴い、トークンの限界と幻覚の課題に直面しています。
これらの課題に対処するために、この論文では、アスペクトベースの要約のための新しいフレームワークを提案します。自己補助検索強化概要生成。
コンテキスト内学習のみに依存するのではなく、側面を与えられて、埋め込み駆動型の検索メカニズムを使用して、その関連するテキストセグメントを特定します。
このアプローチは、適切なコンテンツを抽出しながら、不必要な詳細を避け、それによってトークン制限の課題を軽減します。
さらに、私たちのフレームワークは、テキストの無関係な部分を削除し、モデルが与えられた側面に基づいて厳密に出力を生成することを保証することにより、トークンの使用を最適化します。
ベンチマークデータセットでの広範な実験により、フレームワークが優れたパフォーマンスを達成するだけでなく、トークンの制限問題を効果的に軽減することを実証します。

要約(オリジナル)

Aspect-based summarization aims to generate summaries tailored to specific aspects, addressing the resource constraints and limited generalizability of traditional summarization approaches. Recently, large language models have shown promise in this task without the need for training. However, they rely excessively on prompt engineering and face token limits and hallucination challenges, especially with in-context learning. To address these challenges, in this paper, we propose a novel framework for aspect-based summarization: Self-Aspect Retrieval Enhanced Summary Generation. Rather than relying solely on in-context learning, given an aspect, we employ an embedding-driven retrieval mechanism to identify its relevant text segments. This approach extracts the pertinent content while avoiding unnecessary details, thereby mitigating the challenge of token limits. Moreover, our framework optimizes token usage by deleting unrelated parts of the text and ensuring that the model generates output strictly based on the given aspect. With extensive experiments on benchmark datasets, we demonstrate that our framework not only achieves superior performance but also effectively mitigates the token limitation problem.

arxiv情報

著者 Yichao Feng,Shuai Zhao,Yueqiu Li,Luwei Xiao,Xiaobao Wu,Anh Tuan Luu
発行日 2025-04-17 16:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Aspect-Based Summarization with Self-Aspect Retrieval Enhanced Generation はコメントを受け付けていません

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

要約

ロボット工学の急速に進歩する分野では、デュアルアーム調整と複雑なオブジェクト操作は、高度な自律システムを開発するための不可欠な機能です。
ただし、多様で高品質のデモデータと現実世界に配置された評価ベンチマークの希少性は、そのような開発を厳しく制限しています。
これに対処するために、3D生成基盤モデルと大規模な言語モデルを使用して多様な専門家データセットを作成し、デュアルアームロボットタスクに現実的な評価された評価プラットフォームを提供する生成デジタルツインフレームワークであるRobotWinを紹介します。
具体的には、RobotWinは、単一の2D画像からさまざまなデジタル双子を作成し、現実的でインタラクティブなシナリオを生成します。
また、オブジェクトアノテーションを大規模な言語モデルと組み合わせてタスクを分解し、空間的制約を決定し、正確なロボット運動コードを生成する空間的関係認識コード生成フレームワークを導入します。
私たちのフレームワークは、シミュレートされたデータと実際の両方のデータの両方を備えた包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと現実世界のパフォーマンスの間のより良いアライメントを可能にします。
オープンソースのコボットマジックロボットプラットフォームを使用して、アプローチを検証しました。
Robotwin生成データで事前に訓練され、限られた現実世界のサンプルで微調整されたポリシーは、単一の腕のタスクで70%以上、実体データでトレーニングされたモデルと比較してデュアルアームタスクで40%以上成功率を改善することにより、デュアルアームロボット操作システムを強化するための重要な可能性を示しています。

要約(オリジナル)

In the rapidly advancing field of robotics, dual-arm coordination and complex object manipulation are essential capabilities for developing advanced autonomous systems. However, the scarcity of diverse, high-quality demonstration data and real-world-aligned evaluation benchmarks severely limits such development. To address this, we introduce RoboTwin, a generative digital twin framework that uses 3D generative foundation models and large language models to produce diverse expert datasets and provide a real-world-aligned evaluation platform for dual-arm robotic tasks. Specifically, RoboTwin creates varied digital twins of objects from single 2D images, generating realistic and interactive scenarios. It also introduces a spatial relation-aware code generation framework that combines object annotations with large language models to break down tasks, determine spatial constraints, and generate precise robotic movement code. Our framework offers a comprehensive benchmark with both simulated and real-world data, enabling standardized evaluation and better alignment between simulated training and real-world performance. We validated our approach using the open-source COBOT Magic Robot platform. Policies pre-trained on RoboTwin-generated data and fine-tuned with limited real-world samples demonstrate significant potential for enhancing dual-arm robotic manipulation systems by improving success rates by over 70% for single-arm tasks and over 40% for dual-arm tasks compared to models trained solely on real-world data.

arxiv情報

著者 Yao Mu,Tianxing Chen,Zanxin Chen,Shijia Peng,Zhiqian Lan,Zeyu Gao,Zhixuan Liang,Qiaojun Yu,Yude Zou,Mingkun Xu,Lunkai Lin,Zhiqiang Xie,Mingyu Ding,Ping Luo
発行日 2025-04-17 16:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins はコメントを受け付けていません

Relevance for Human Robot Collaboration

要約

関連情報に選択的に焦点を当てる人間の能力に触発されたこのペーパーでは、人間とロボットコラボレーション(HRC)の新しい次元削減プロセスである関連性を紹介します。
私たちのアプローチには、継続的に動作する知覚モジュールが組み込まれ、シーン内のキューの十分性を評価し、柔軟な定式化と計算フレームワークを適用します。
関連性を正確かつ効率的に定量化するために、シーンの継続的な認識を維持し、関連性の決定を選択的にトリガーするイベントベースのフレームワークを開発しました。
このフレームワーク内で、さまざまな要因を考慮し、新しい構造化されたシーンの表現に基づいて構築される確率論的方法論を開発しました。
シミュレーション結果は、関連性フレームワークと方法論が一般的なHRCセットアップの関連性を正確に予測し、0.99の精度、0.94、F1スコア0.96、およびオブジェクト比0.94を達成することを示しています。
関連性をHRCのいくつかの領域に広く適用して、穀物タスクの純粋な計画と比較してタスク計画時間を79.56%正確に改善し、オブジェクト検出器の認識遅延を最大26.53%削減し、HRCの安全性を最大13.50%改善し、HRCの問い合わせ数を80.84%削減します。
現実世界のデモンストレーションは、日常のタスクで人間をインテリジェントに、そしてシームレスに支援する関連フレームワークの能力を紹介します。

要約(オリジナル)

Inspired by the human ability to selectively focus on relevant information, this paper introduces relevance, a novel dimensionality reduction process for human-robot collaboration (HRC). Our approach incorporates a continuously operating perception module, evaluates cue sufficiency within the scene, and applies a flexible formulation and computation framework. To accurately and efficiently quantify relevance, we developed an event-based framework that maintains a continuous perception of the scene and selectively triggers relevance determination. Within this framework, we developed a probabilistic methodology, which considers various factors and is built on a novel structured scene representation. Simulation results demonstrate that the relevance framework and methodology accurately predict the relevance of a general HRC setup, achieving a precision of 0.99, a recall of 0.94, an F1 score of 0.96, and an object ratio of 0.94. Relevance can be broadly applied to several areas in HRC to accurately improve task planning time by 79.56% compared with pure planning for a cereal task, reduce perception latency by up to 26.53% for an object detector, improve HRC safety by up to 13.50% and reduce the number of inquiries for HRC by 80.84%. A real-world demonstration showcases the relevance framework’s ability to intelligently and seamlessly assist humans in everyday tasks.

arxiv情報

著者 Xiaotong Zhang,Dean Huang,Kamal Youcef-Toumi
発行日 2025-04-17 16:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Relevance for Human Robot Collaboration はコメントを受け付けていません

REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites

要約

実際のWebサイトの決定論的シミュレーションに関するマルチターンエージェント評価のためのベンチマークとフレームワークを紹介します。
Realは、eコマース、旅行、コミュニケーション、プロのネットワーキングなどのドメイン全体で、広く使用されている11のWebサイトの高忠実度、決定論的レプリカで構成されています。
また、正確な情報検索と状態を変えるアクションの両方を必要とする日常の複雑なユーザーインタラクションを反映する112の実用的なタスクで構成されるベンチマークをリリースします。
すべての相互作用は、この完全に制御された設定内で発生し、安全性のリスクを排除し、エージェントの能力と信頼性の堅牢で再現可能な評価を可能にします。
私たちの新しい評価フレームワークは、情報検索のためのルーブリック誘導LLMベースの判断とアクションベースのタスクのWebサイト状態のプログラムチェックを組み合わせています。
このフレームワークは、ブラウザ環境内のブラックボックスコマンドに対応する柔軟な評価ハーネスを介して、オープンソースと独自のエージェントシステムの両方をサポートし、研究室が変更なしでエージェントシステムをテストできるようにします。
私たちの経験的結果は、フロンティア言語モデルが、自律的なWebナビゲーションとタスク完了機能の重要なギャップを強調する、実際の成功率でせいぜい41%の成功率を達成することを示しています。
当社のフレームワークは、新しいタスクの簡単な統合、再現可能な評価、およびスケーラブルなトレーニング後のデータ生成をサポートし、エージェント機能の評価と進歩において重要な前進を示しています。

要約(オリジナル)

We introduce REAL, a benchmark and framework for multi-turn agent evaluations on deterministic simulations of real-world websites. REAL comprises high-fidelity, deterministic replicas of 11 widely-used websites across domains such as e-commerce, travel, communication, and professional networking. We also release a benchmark consisting of 112 practical tasks that mirror everyday complex user interactions requiring both accurate information retrieval and state-changing actions. All interactions occur within this fully controlled setting, eliminating safety risks and enabling robust, reproducible evaluation of agent capability and reliability. Our novel evaluation framework combines programmatic checks of website state for action-based tasks with rubric-guided LLM-based judgments for information retrieval. The framework supports both open-source and proprietary agent systems through a flexible evaluation harness that accommodates black-box commands within browser environments, allowing research labs to test agentic systems without modification. Our empirical results show that frontier language models achieve at most a 41% success rate on REAL, highlighting critical gaps in autonomous web navigation and task completion capabilities. Our framework supports easy integration of new tasks, reproducible evaluation, and scalable post-training data generation, marking a significant step forward in evaluating and advancing agent capabilities.

arxiv情報

著者 Divyansh Garg,Shaun VanWeelden,Diego Caples,Andis Draguns,Nikil Ravi,Pranav Putta,Naman Garg,Tomas Abraham,Michael Lara,Federico Lopez,James Liu,Atharva Gundawar,Prannay Hebbar,Youngchul Joo,Jindong Gu,Charles London,Christian Schroeder de Witt,Sumeet Motwani
発行日 2025-04-17 16:28:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites はコメントを受け付けていません