Agent-Based Simulations of Online Political Discussions: A Case Study on Elections in Germany

要約

ソーシャルメディアプラットフォームでのユーザーエンゲージメントは、歴史的なコンテキスト、時間の制約、報酬主導の対話に影響されます。
この研究では、過去の会話の履歴、動機付け、リソースの制約を考慮して、ユーザーの相互作用をモデル化するエージェントベースのシミュレーションアプローチを提示します。
政治的言説に関するドイツのTwitterデータを利用して、AIモデルを微調整して投稿と返信を生成し、感情分析、皮肉検出、攻撃の分類を組み込みます。
このシミュレーションは、予想される報酬に基づいて意思決定を考慮して、エージェントの行動を管理するために近視のベスト応答モデルを採用しています。
我々の結果は、AIに生成された応答に対する歴史的文脈の影響を強調し、さまざまな制約の下でエンゲージメントがどのように進化するかを示しています。

要約(オリジナル)

User engagement on social media platforms is influenced by historical context, time constraints, and reward-driven interactions. This study presents an agent-based simulation approach that models user interactions, considering past conversation history, motivation, and resource constraints. Utilizing German Twitter data on political discourse, we fine-tune AI models to generate posts and replies, incorporating sentiment analysis, irony detection, and offensiveness classification. The simulation employs a myopic best-response model to govern agent behavior, accounting for decision-making based on expected rewards. Our results highlight the impact of historical context on AI-generated responses and demonstrate how engagement evolves under varying constraints.

arxiv情報

著者 Abdul Sittar,Simon Münker,Fabio Sartori,Andreas Reitenbach,Achim Rettinger,Michael Mäs,Alenka Guček,Marko Grobelnik
発行日 2025-03-31 15:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Agent-Based Simulations of Online Political Discussions: A Case Study on Elections in Germany はコメントを受け付けていません

All You Need is Sally-Anne: ToM in AI Strongly Supported After Surpassing Tests for 3-Year-Olds

要約

心の理論(トム)は人間の認知の特徴であり、個人が他人の信念と意図について推論できるようにします。
人工知能(AI)における最近の進歩の背後にあるエンジニアは、同等の能力を実証すると主張しています。
このペーパーでは、3歳の子供向けに設計された伝統的なTOMテストを上回るモデルを紹介し、AIシステムにおけるTOMの存在を強力にサポートしています。

要約(オリジナル)

Theory of Mind (ToM) is a hallmark of human cognition, allowing individuals to reason about others’ beliefs and intentions. Engineers behind recent advances in Artificial Intelligence (AI) have claimed to demonstrate comparable capabilities. This paper presents a model that surpasses traditional ToM tests designed for 3-year-old children, providing strong support for the presence of ToM in AI systems.

arxiv情報

著者 Nitay Alon,Joseph Barnby,Reuth Mirsky,Stefan Sarkadi
発行日 2025-03-31 15:32:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | All You Need is Sally-Anne: ToM in AI Strongly Supported After Surpassing Tests for 3-Year-Olds はコメントを受け付けていません

PAARS: Persona Aligned Agentic Retail Shoppers

要約

eコマースでは、コストと遅い可能性のある意思決定のために行動データが収集されます。
LLMパワーエージェントを使用したシミュレーションは、人口の行動を表すための有望な代替手段として浮上しています。
ただし、LLMは、ブランドバイアス、レビューの評価バイアス、人口の特定のグループの限られた表現などの特定のバイアスを示すことが知られているため、ユーザーの行動に慎重にベンチマークされ、整列する必要があります。
最終的に、私たちの目標は、エージェント集団を統合し、それがまとめて人間の実際のサンプルに近似していることを確認することです。
この目的のために、次のフレームワークを提案します。(i)匿名の歴史的ショッピングデータからペルソナを自動的にマイニングすることにより、(ii)ショッピングセッションを統合するための小売固有のツールを装備し、(iii)は、人間と従来のレベルでの人口レベルでの人口レベルの間の分布違いを測定する新しいアライメントスイートを導入します。
実験結果は、ペルソナを使用すると、人間の行動とのギャップが残っているものの、アライメントスイートのパフォーマンスが向上することを示しています。
自動エージェントのA/Bテストのためのフレームワークの初期アプリケーションを紹介し、調査結果を人間の結果と比較します。
最後に、インパクトのある将来の仕事の舞台を設定するアプリケーション、制限、課題について説明します。

要約(オリジナル)

In e-commerce, behavioral data is collected for decision making which can be costly and slow. Simulation with LLM powered agents is emerging as a promising alternative for representing human population behavior. However, LLMs are known to exhibit certain biases, such as brand bias, review rating bias and limited representation of certain groups in the population, hence they need to be carefully benchmarked and aligned to user behavior. Ultimately, our goal is to synthesise an agent population and verify that it collectively approximates a real sample of humans. To this end, we propose a framework that: (i) creates synthetic shopping agents by automatically mining personas from anonymised historical shopping data, (ii) equips agents with retail-specific tools to synthesise shopping sessions and (iii) introduces a novel alignment suite measuring distributional differences between humans and shopping agents at the group (i.e. population) level rather than the traditional ‘individual’ level. Experimental results demonstrate that using personas improves performance on the alignment suite, though a gap remains to human behaviour. We showcase an initial application of our framework for automated agentic A/B testing and compare the findings to human results. Finally, we discuss applications, limitations and challenges setting the stage for impactful future work.

arxiv情報

著者 Saab Mansour,Leonardo Perelli,Lorenzo Mainetti,George Davidson,Stefano D’Amato
発行日 2025-03-31 15:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | PAARS: Persona Aligned Agentic Retail Shoppers はコメントを受け付けていません

What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models

要約

「テスト時間コンピューティング」とも呼ばれるテスト時間スケーリング(TTS)が徐々に減少したため、事前トレーニング時代の計算(データとパラメーター)のスケーリング(データとパラメーター)への熱意が徐々に減少しました。
最近の研究は、TTSが大規模な言語モデル(LLM)の問題解決能力をさらに引き出すことができることを示しており、数学やコーディングなどの専門的な推論タスクだけでなく、オープンエンドQ&Aなどの一般的なタスクでも重要なブレークスルーを可能にします。
しかし、この分野での最近の努力の爆発にもかかわらず、体系的な理解を提供する包括的な調査が緊急に必要である。
このギャップを埋めるために、TTS研究の4つのコアディメンションに沿って構成された統一された多次元フレームワークを提案します。
この分類法に基づいて、メソッド、アプリケーションシナリオ、評価の側面の広範なレビューを実施し、より広範なTTSランドスケープ内の個々の手法のユニークな機能的役割を強調する組織化された分解を提示します。
この分析から、TTSの主要な発達軌跡をこれまでに蒸留し、実用的な展開のための実践的なガイドラインを提供します。
さらに、いくつかのオープンな課題を特定し、さらなるスケーリング、技術の機能的な本質の明確化、より多くのタスクへの一般化、より多くの帰属など、有望な将来の方向性に関する洞察を提供します。

要約(オリジナル)

As enthusiasm for scaling computation (data and parameters) in the pretraining era gradually diminished, test-time scaling (TTS), also referred to as “test-time computing” has emerged as a prominent research focus. Recent studies demonstrate that TTS can further elicit the problem-solving capabilities of large language models (LLMs), enabling significant breakthroughs not only in specialized reasoning tasks, such as mathematics and coding, but also in general tasks like open-ended Q&A. However, despite the explosion of recent efforts in this area, there remains an urgent need for a comprehensive survey offering a systemic understanding. To fill this gap, we propose a unified, multidimensional framework structured along four core dimensions of TTS research: what to scale, how to scale, where to scale, and how well to scale. Building upon this taxonomy, we conduct an extensive review of methods, application scenarios, and assessment aspects, and present an organized decomposition that highlights the unique functional roles of individual techniques within the broader TTS landscape. From this analysis, we distill the major developmental trajectories of TTS to date and offer hands-on guidelines for practical deployment. Furthermore, we identify several open challenges and offer insights into promising future directions, including further scaling, clarifying the functional essence of techniques, generalizing to more tasks, and more attributions.

arxiv情報

著者 Qiyuan Zhang,Fuyuan Lyu,Zexu Sun,Lei Wang,Weixu Zhang,Zhihan Guo,Yufei Wang,Irwin King,Xue Liu,Chen Ma
発行日 2025-03-31 15:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models はコメントを受け付けていません

Spatio-temporal Prediction of Fine-Grained Origin-Destination Matrices with Applications in Ridesharing

要約

ネットワークベースの旅行者の要求の正確な空間的予測は、ライドシェアリングプラットフォームの効果的なポリシー設計にとって重要です。
今後のタイムスロットでさまざまな場所間の総需要に関する知識を持つことにより、プラットフォームは適切な供給を積極的に準備することができ、それにより、旅行者の要求を満たす可能性を高め、グローバルな供給需要の平衡を最適化するための潜在的な需要の高い地域にアイドルドライバーを再配布する可能性を高めます。
このペーパーでは、特に地元の地域の広大なセットに直面している場合、微粒子の空間レベルで、起源照明(OD)の要求の予測を掘り下げています。
このタスクは計り知れない実用的な価値を保持していますが、研究コミュニティ内では比較的未開拓のままです。
このギャップを埋めるために、データスパース性を緩和するための監視されていないスペースの粗大化技術と、セマンティックと地理的依存関係の両方をキャプチャするエンコーダーデコーダーアーキテクチャを含むOD-Cedと呼ばれる新しい予測モデルを導入します。
実用的な実験を通じて、OD-CEDは顕著な結果を示しています。
90%を超えるスパース性を示すODマトリックスを扱う場合、根平均誤差の最大45%の減少と、従来の統計的方法に比べて加重平均絶対パーセント誤差が60%減少することを達成しました。

要約(オリジナル)

Accurate spatial-temporal prediction of network-based travelers’ requests is crucial for the effective policy design of ridesharing platforms. Having knowledge of the total demand between various locations in the upcoming time slots enables platforms to proactively prepare adequate supplies, thereby increasing the likelihood of fulfilling travelers’ requests and redistributing idle drivers to areas with high potential demand to optimize the global supply-demand equilibrium. This paper delves into the prediction of Origin-Destination (OD) demands at a fine-grained spatial level, especially when confronted with an expansive set of local regions. While this task holds immense practical value, it remains relatively unexplored within the research community. To fill this gap, we introduce a novel prediction model called OD-CED, which comprises an unsupervised space coarsening technique to alleviate data sparsity and an encoder-decoder architecture to capture both semantic and geographic dependencies. Through practical experimentation, OD-CED has demonstrated remarkable results. It achieved an impressive reduction of up to 45% reduction in root-mean-square error and 60% in weighted mean absolute percentage error over traditional statistical methods when dealing with OD matrices exhibiting a sparsity exceeding 90%.

arxiv情報

著者 Run Yang,Runpeng Dai,Siran Gao,Xiaocheng Tang,Fan Zhou,Hongtu Zhu
発行日 2025-03-31 15:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Spatio-temporal Prediction of Fine-Grained Origin-Destination Matrices with Applications in Ridesharing はコメントを受け付けていません

Inductive Moment Matching

要約

拡散モデルとフローマッチングは、高品質のサンプルを生成しますが、推論では遅くなり、それらを少数のモデルに蒸留することは、しばしば不安定性と広範なチューニングにつながります。
これらのトレードオフを解決するために、単一段階のトレーニング手順を備えた1つまたは少数のサンプリングのための新しいクラスの生成モデルである帰納的モーメントマッチング(IMM)を提案します。
蒸留とは異なり、IMMは2つのネットワークのトレーニング前の初期化と最適化を必要としません。
また、一貫性モデルとは異なり、IMMは分布レベルの収束を保証し、さまざまなハイパーパラメーターと標準モデルアーキテクチャの下で安定したままです。
IMMは、8つの推論ステップのみを使用して1.99 FIDでImagenet-256×256で拡散モデルを上回り、ゼロからトレーニングされたモデルのCIFAR-10で最先端の2ステップFIDをCIFAR-10で達成します。

要約(オリジナル)

Diffusion models and Flow Matching generate high-quality samples but are slow at inference, and distilling them into few-step models often leads to instability and extensive tuning. To resolve these trade-offs, we propose Inductive Moment Matching (IMM), a new class of generative models for one- or few-step sampling with a single-stage training procedure. Unlike distillation, IMM does not require pre-training initialization and optimization of two networks; and unlike Consistency Models, IMM guarantees distribution-level convergence and remains stable under various hyperparameters and standard model architectures. IMM surpasses diffusion models on ImageNet-256×256 with 1.99 FID using only 8 inference steps and achieves state-of-the-art 2-step FID of 1.98 on CIFAR-10 for a model trained from scratch.

arxiv情報

著者 Linqi Zhou,Stefano Ermon,Jiaming Song
発行日 2025-03-31 16:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Inductive Moment Matching はコメントを受け付けていません

CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

要約

特に重要なソフトウェアコンポーネントでは、ソースコードの脆弱性を特定することが重要です。
静的分析、動的分析、正式な検証、最近の大規模な言語モデルなどの既存の方法は、セキュリティの欠陥を検出するために広く使用されています。
このペーパーでは、さまざまな方法の脆弱性検出機能を評価するためのベンチマークフレームワークであるCastle(CWE Automated Securityテストと低レベルの評価)を紹介します。
25の一般的なCWEをカバーする250のマイクロベンチマークプログラムの手作りのデータセットを使用して、13の静的分析ツール、10 LLM、および2つの正式な検証ツールを評価します。
公正な比較を確保するための新しい評価メトリックであるCastle Scoreを提案します。
私たちの結果は重要な違いを明らかにします。ESBMC(正式な検証ツール)は、誤検知を最小限に抑えますが、暗号化やSQL注入などのモデルチェックを超えた脆弱性と闘っています。
静的アナライザーは、誤検知が高く、開発者の手動検証努力の増加に悩まされています。
LLMSは、小さなコードスニペットの脆弱性を識別するときに、Castle Datasetで非常によく機能します。
ただし、それらの精度は低下し、コードサイズが大きくなるにつれて幻覚が増加します。
これらの結果は、LLMが将来のセキュリティソリューション、特にコード完了フレームワーク内で極めて重要な役割を果たすことができることを示唆しています。ここでは、脆弱性を防ぐためのリアルタイムのガイダンスを提供できます。
データセットにはhttps://github.com/castle-benchmarkにアクセスできます。

要約(オリジナル)

Identifying vulnerabilities in source code is crucial, especially in critical software components. Existing methods such as static analysis, dynamic analysis, formal verification, and recently Large Language Models are widely used to detect security flaws. This paper introduces CASTLE (CWE Automated Security Testing and Low-Level Evaluation), a benchmarking framework for evaluating the vulnerability detection capabilities of different methods. We assess 13 static analysis tools, 10 LLMs, and 2 formal verification tools using a hand-crafted dataset of 250 micro-benchmark programs covering 25 common CWEs. We propose the CASTLE Score, a novel evaluation metric to ensure fair comparison. Our results reveal key differences: ESBMC (a formal verification tool) minimizes false positives but struggles with vulnerabilities beyond model checking, such as weak cryptography or SQL injection. Static analyzers suffer from high false positives, increasing manual validation efforts for developers. LLMs perform exceptionally well in the CASTLE dataset when identifying vulnerabilities in small code snippets. However, their accuracy declines, and hallucinations increase as the code size grows. These results suggest that LLMs could play a pivotal role in future security solutions, particularly within code completion frameworks, where they can provide real-time guidance to prevent vulnerabilities. The dataset is accessible at https://github.com/CASTLE-Benchmark.

arxiv情報

著者 Richard A. Dubniczky,Krisztofer Zoltán Horvát,Tamás Bisztray,Mohamed Amine Ferrag,Lucas C. Cordeiro,Norbert Tihanyi
発行日 2025-03-31 16:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SE | CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection はコメントを受け付けていません

New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning

要約

機械学習はハイステークスドメインでは不可欠ですが、従来の検証方法は、極端なエラーの定量化に失敗する平均四角エラー(MSE)や平均絶対誤差(MAE)などの平均メトリックの平均化に依存しています。
最悪の予測の障害は大きな結果をもたらす可能性がありますが、現在のフレームワークには確率を評価するための統計的基礎がありません。
この作業では、極端な値理論(EVT)に基づいた新しい統計的フレームワークが提示され、最悪の障害を推定するための厳密なアプローチを提供します。
EVTを合成および実世界のデータセットに適用すると、この方法は壊滅的な故障確率の堅牢な推定を可能にし、標準的な交差検証の基本的な制限を克服することが示されています。
この作業は、モデルの信頼性を評価するための基本的なツールとしてEVTを確立し、不確実性の定量化が意思決定または科学分析の中心である新しいテクノロジーでのより安全なAI展開を確保します。

要約(オリジナル)

Machine learning is vital in high-stakes domains, yet conventional validation methods rely on averaging metrics like mean squared error (MSE) or mean absolute error (MAE), which fail to quantify extreme errors. Worst-case prediction failures can have substantial consequences, but current frameworks lack statistical foundations for assessing their probability. In this work a new statistical framework, based on Extreme Value Theory (EVT), is presented that provides a rigorous approach to estimating worst-case failures. Applying EVT to synthetic and real-world datasets, this method is shown to enable robust estimation of catastrophic failure probabilities, overcoming the fundamental limitations of standard cross-validation. This work establishes EVT as a fundamental tool for assessing model reliability, ensuring safer AI deployment in new technologies where uncertainty quantification is central to decision-making or scientific analysis.

arxiv情報

著者 Umberto Michelucci,Francesca Venturini
発行日 2025-03-31 16:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ME, stat.ML | New Statistical Framework for Extreme Error Probability in High-Stakes Domains for Reliable Machine Learning はコメントを受け付けていません

Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality

要約

スパースオートエンコーダー(SAE)は、現代の機械的解釈可能性の主力として登場していますが、$ $ k $スタイルのアクティベーション関数を使用して主要なSAEアプローチは、ハイパーパラメーター$ k $を選択するための理論的根拠に欠けています。
SAEは、線形表現仮説(LRH)に基づいており、大規模な言語モデル(LLM)の表現が線形エンコードされていると仮定し、重ね合わせ仮説(SH)は、その次元よりもモデルに多くの特徴がある可能性があると述べています。
LRHとSHの正式な定義に基づいて、スパース特徴ベクトルの大きさ(LLMSの密な埋め込みのSAEによって学習された潜在表現)は、閉じた型誤差を持つ対応する濃いベクターを使用して近似できることを示します。
これを視覚化するために、ZFプロットを提案します。これは、LLM隠された埋め込みとSAE機能ベクターの間に以前は未知の関係を明らかにし、特定の入力に対して過剰または過剰に活性化される範囲の範囲の最初の経験的測定を行うことができます。
それに対応して、接地真実のスパース特徴ベクトルの大きさに近似し、入力とアクティベーション間のアライメントを評価するためにAFAから派生した新しい評価メトリックを提案する近似特徴アクティベーション(AFA)を導入します。
また、AFAを活用して、新しいSAEアーキテクチャであるTop-AFA SAEを導入し、次のSAEにつながります。(a)理論的正当性に沿っています。
(b)Sae Sparsity HyperParametersを調整する必要性を取り除きます。
最後に、HyperParameter $ K $を調整する必要なく、最先端のTOP-K SAEのトップAFA SAEが再建損失を達成できることを経験的に実証します。
私たちのコードは、https://github.com/sewoonglee/top-afa-saeで入手できます。

要約(オリジナル)

Sparse autoencoders (SAEs) have emerged as a workhorse of modern mechanistic interpretability, but leading SAE approaches with top-$k$ style activation functions lack theoretical grounding for selecting the hyperparameter $k$. SAEs are based on the linear representation hypothesis (LRH), which assumes that the representations of large language models (LLMs) are linearly encoded, and the superposition hypothesis (SH), which states that there can be more features in the model than its dimensionality. We show that, based on the formal definitions of the LRH and SH, the magnitude of sparse feature vectors (the latent representations learned by SAEs of the dense embeddings of LLMs) can be approximated using their corresponding dense vector with a closed-form error bound. To visualize this, we propose the ZF plot, which reveals a previously unknown relationship between LLM hidden embeddings and SAE feature vectors, allowing us to make the first empirical measurement of the extent to which feature vectors of pre-trained SAEs are over- or under-activated for a given input. Correspondingly, we introduce Approximate Feature Activation (AFA), which approximates the magnitude of the ground-truth sparse feature vector, and propose a new evaluation metric derived from AFA to assess the alignment between inputs and activations. We also leverage AFA to introduce a novel SAE architecture, the top-AFA SAE, leading to SAEs that: (a) are more in line with theoretical justifications; and (b) obviate the need to tune SAE sparsity hyperparameters. Finally, we empirically demonstrate that top-AFA SAEs achieve reconstruction loss comparable to that of state-of-the-art top-k SAEs, without requiring the hyperparameter $k$ to be tuned. Our code is available at: https://github.com/SewoongLee/top-afa-sae.

arxiv情報

著者 Sewoong Lee,Adam Davies,Marc E. Canby,Julia Hockenmaier
発行日 2025-03-31 16:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality はコメントを受け付けていません

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

要約

スケーラブルで再現可能なポリシー評価は、ロボット学習における長年の課題でした。
評価は進捗を評価し、より良いポリシーを構築するために重要ですが、現実の世界では、特に統計的に信頼できる結果を提供する規模での評価は、人間の時間の面で費用がかかり、取得が困難です。
ますます一般的なロボットポリシーの評価には、評価環境のますます多様化するレパートリーが必要であり、評価のボトルネックがさらに顕著になります。
ロボットポリシーの実際の評価をより実用的にするために、私たちは、最小限の人間の介入で24時間周辺で自律的に評価するシステムであるAutoevalを提案します。
ユーザーは、ソフトウェアジョブがクラスタースケジューリングシステムで提出される方法と同様に、評価ジョブを自動変動キューに提出することにより、自動評価と対話し、自動成功検知と自動シーンのリセットを提供するフレームワーク内で評価のポリシーをスケジュールします。
自動面積は、評価プロセスへの人間の関与をほぼ完全に排除し、時計評価を中心に許可することを示し、評価結果は手で行われたグラウンドトゥルース評価に密接に対応しています。
Roboticsコミュニティにおけるジェネラリスト政策の評価を促進するために、Widowx Robot Armsを備えた人気のあるBriddeataロボットセットアップで、複数の自己評価シーンへのパブリックアクセスを提供します。
将来的には、機関全体に自己量のシーンを設置して、多様で分散した評価ネットワークを形成できることを願っています。

要約(オリジナル)

Scalable and reproducible policy evaluation has been a long-standing challenge in robot learning. Evaluations are critical to assess progress and build better policies, but evaluation in the real world, especially at a scale that would provide statistically reliable results, is costly in terms of human time and hard to obtain. Evaluation of increasingly generalist robot policies requires an increasingly diverse repertoire of evaluation environments, making the evaluation bottleneck even more pronounced. To make real-world evaluation of robotic policies more practical, we propose AutoEval, a system to autonomously evaluate generalist robot policies around the clock with minimal human intervention. Users interact with AutoEval by submitting evaluation jobs to the AutoEval queue, much like how software jobs are submitted with a cluster scheduling system, and AutoEval will schedule the policies for evaluation within a framework supplying automatic success detection and automatic scene resets. We show that AutoEval can nearly fully eliminate human involvement in the evaluation process, permitting around the clock evaluations, and the evaluation results correspond closely to ground truth evaluations conducted by hand. To facilitate the evaluation of generalist policies in the robotics community, we provide public access to multiple AutoEval scenes in the popular BridgeData robot setup with WidowX robot arms. In the future, we hope that AutoEval scenes can be set up across institutions to form a diverse and distributed evaluation network.

arxiv情報

著者 Zhiyuan Zhou,Pranav Atreya,You Liang Tan,Karl Pertsch,Sergey Levine
発行日 2025-03-31 16:23:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World はコメントを受け付けていません