Dementia Through Different Eyes: Explainable Modeling of Human and LLM Perceptions for Early Awareness

要約

認知機能低下は、診断の数年前の言語の表面をしばしば表面化します。
患者に最も近い人のように、それはしばしば非専門家であり、最初に変化を感じ、懸念を引き起こす。
LLMが毎日のコミュニケーションに統合され、長期にわたって使用されると、何かがオフになっていることに気付くLLMでさえあるかもしれません。
しかし、その判断をするとき、彼らは正確に何を気づき、気づくべきですか?
このペーパーでは、認知症が言語を通じて言語を通してどのように知覚されるかを調査します。
非専門家とLLMSに転写された画像の説明を提示し、各テキストが健康な人によって生成されたのか、認知症で生成されたのかを直感的に判断するように依頼しました。
LLMSを使用して、これらの画像の説明を表す高レベルの専門家誘導機能を抽出する説明可能な方法を紹介し、ロジスティック回帰を使用して人間とLLMの認識をモデル化し、臨床診断と比較します。
私たちの分析は、認知症の人間の認識は一貫性がなく、狭い、時には誤解を招くようなキューに依存していることを明らかにしています。
対照的に、LLMSは、臨床パターンとより密接に整合する、より豊かで、より微妙な機能セットを描きます。
それでも、両方のグループは、認知症の症例を頻繁に見落とす誤ったネガの傾向を示しています。
私たちの解釈可能なフレームワークとそれが提供する洞察を通して、私たちは非専門家が重要な言語兆候をよりよく認識するのを助けることを望んでいます。

要約(オリジナル)

Cognitive decline often surfaces in language years before diagnosis. It is frequently non-experts, such as those closest to the patient, who first sense a change and raise concern. As LLMs become integrated into daily communication and used over prolonged periods, it may even be an LLM that notices something is off. But what exactly do they notice–and should be noticing–when making that judgment? This paper investigates how dementia is perceived through language by non-experts. We presented transcribed picture descriptions to non-expert humans and LLMs, asking them to intuitively judge whether each text was produced by someone healthy or with dementia. We introduce an explainable method that uses LLMs to extract high-level, expert-guided features representing these picture descriptions, and use logistic regression to model human and LLM perceptions and compare with clinical diagnoses. Our analysis reveals that human perception of dementia is inconsistent and relies on a narrow, and sometimes misleading, set of cues. LLMs, by contrast, draw on a richer, more nuanced feature set that aligns more closely with clinical patterns. Still, both groups show a tendency toward false negatives, frequently overlooking dementia cases. Through our interpretable framework and the insights it provides, we hope to help non-experts better recognize the linguistic signs that matter.

arxiv情報

著者 Lotem Peled-Cohen,Maya Zadok,Nitay Calderon,Hila Gonen,Roi Reichart
発行日 2025-05-19 17:51:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Dementia Through Different Eyes: Explainable Modeling of Human and LLM Perceptions for Early Awareness はコメントを受け付けていません

SMOTExT: SMOTE meets Large Language Models

要約

データ不足とクラスの不均衡は、特に特別なドメインまたは低リソース設定での堅牢なNLPモデルのトレーニングにおける永続的な課題です。
合成マイノリティオーバーサンプリング(スモート)のアイデアをテキストデータに適応させる新しいテクニック、スモテキストを提案します。
私たちの方法は、2つの既存の例のBERTベースの埋め込みを補間し、結果の潜在点をXRAGアーキテクチャを使用してテキストに解読することにより、新しい合成例を生成します。
XRAGのクロスモーダル検索系フレームワークを活用することにより、補間ベクトルをコヒーレントテキストに効果的に変えることができます。
これは定性的出力のみによってサポートされる予備作業ですが、この方法は、少ないショット設定での知識の蒸留とデータ増強の強力な可能性を示しています。
特に、私たちのアプローチは、プライバシーを提供する機械学習の可能性も示しています。初期の実験では、生成されたデータのみでモデルをトレーニングし、元のデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成しました。
これは、データ保護の制約の下で安全で効果的な学習への実行可能なパスを示唆しています。

要約(オリジナル)

Data scarcity and class imbalance are persistent challenges in training robust NLP models, especially in specialized domains or low-resource settings. We propose a novel technique, SMOTExT, that adapts the idea of Synthetic Minority Over-sampling (SMOTE) to textual data. Our method generates new synthetic examples by interpolating between BERT-based embeddings of two existing examples and then decoding the resulting latent point into text with xRAG architecture. By leveraging xRAG’s cross-modal retrieval-generation framework, we can effectively turn interpolated vectors into coherent text. While this is preliminary work supported by qualitative outputs only, the method shows strong potential for knowledge distillation and data augmentation in few-shot settings. Notably, our approach also shows promise for privacy-preserving machine learning: in early experiments, training models solely on generated data achieved comparable performance to models trained on the original dataset. This suggests a viable path toward safe and effective learning under data protection constraints.

arxiv情報

著者 Mateusz Bystroński,Mikołaj Hołysz,Grzegorz Piotrowski,Nitesh V. Chawla,Tomasz Kajdanowicz
発行日 2025-05-19 17:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SMOTExT: SMOTE meets Large Language Models はコメントを受け付けていません

Representation of perceived prosodic similarity of conversational feedback

要約

ボーカルフィードバック(例:「MHM」、「ええ」、「大丈夫」)は、話し言葉の重要な要素であり、会話システムの共通点を確保するために重要です。
このようなフィードバックの正確な意味は、語彙と韻律の両方の形を介して伝えられます。
この作業では、同じ語彙形式のボーカルフィードバックの知覚された韻律類似性と、既存の音声表現がそのような類似性をどの程度反映しているかを調査します。
採用された参加者との三重比較タスクを使用して、2つの異なるデータセットから取得したフィードバック応答の知覚された類似性を測定します。
特に同じスピーカーからのフィードバックの場合、抽出されたピッチ機能よりもスペクトルと自己監視の音声表現が韻律をよりよくエンコードすることがわかります。
また、対照的な学習を通じて、表現を人間の知覚にさらに凝縮して整列させることが可能であることがわかります。

要約(オリジナル)

Vocal feedback (e.g., `mhm’, `yeah’, `okay’) is an important component of spoken dialogue and is crucial to ensuring common ground in conversational systems. The exact meaning of such feedback is conveyed through both lexical and prosodic form. In this work, we investigate the perceived prosodic similarity of vocal feedback with the same lexical form, and to what extent existing speech representations reflect such similarities. A triadic comparison task with recruited participants is used to measure perceived similarity of feedback responses taken from two different datasets. We find that spectral and self-supervised speech representations encode prosody better than extracted pitch features, especially in the case of feedback from the same speaker. We also find that it is possible to further condense and align the representations to human perception through contrastive learning.

arxiv情報

著者 Livia Qian,Carol Figueroa,Gabriel Skantze
発行日 2025-05-19 15:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Representation of perceived prosodic similarity of conversational feedback はコメントを受け付けていません

Enhancing LLMs for Power System Simulations: A Feedback-driven Multi-agent Framework

要約

実験技術と大規模な言語モデル(LLMS)の統合は、科学的研究を変革しています。
AIは、単なる問題解決ツールではなく、多目的な研究助手として位置付けられています。
ただし、電力システムの分野では、シミュレーションの管理(重要な実験技術の1つ)は、ドメイン固有の知識が限られていること、制限された推論能力、シミュレーションパラメーターの不正確な取り扱いにより、LLMの課題のままです。
これらの制限に対処するために、このペーパーでは、フィードバック駆動型のマルチエージェントフレームワークを提案しています。
提案された3つのモジュールが組み込まれています。検索された検索(RAG)モジュールの強化、改善された推論モジュール、エラーフィードバックメカニズムを備えた動的環境作用モジュールです。
DalineとMatpowerからの69の多様なタスクで検証されたこのフレームワークは、それぞれ93.13%と96.85%の成功率を達成します。
CHATGPT 4O、O1-PREVIEW、および微調整されたGPT-4Oを大幅に上回り、すべて複雑なタスクで30%未満の成功率を達成しました。
さらに、提案されたフレームワークは、迅速で費用対効果の高いタスクの実行もサポートし、各シミュレーションをトークンの平均コスト0.014 USDで約30秒で完了します。
全体として、この適応可能なフレームワークは、人間の研究者向けのインテリジェントLLMベースのアシスタントを開発し、電力システムの研究を促進するための基盤を築きます。

要約(オリジナル)

The integration of experimental technologies with large language models (LLMs) is transforming scientific research. It positions AI as a versatile research assistant rather than a mere problem-solving tool. In the field of power systems, however, managing simulations — one of the essential experimental technologies — remains a challenge for LLMs due to their limited domain-specific knowledge, restricted reasoning capabilities, and imprecise handling of simulation parameters. To address these limitations, this paper proposes a feedback-driven, multi-agent framework. It incorporates three proposed modules: an enhanced retrieval-augmented generation (RAG) module, an improved reasoning module, and a dynamic environmental acting module with an error-feedback mechanism. Validated on 69 diverse tasks from Daline and MATPOWER, this framework achieves success rates of 93.13% and 96.85%, respectively. It significantly outperforms ChatGPT 4o, o1-preview, and the fine-tuned GPT-4o, which all achieved a success rate lower than 30% on complex tasks. Additionally, the proposed framework also supports rapid, cost-effective task execution, completing each simulation in approximately 30 seconds at an average cost of 0.014 USD for tokens. Overall, this adaptable framework lays a foundation for developing intelligent LLM-based assistants for human researchers, facilitating power system research and beyond.

arxiv情報

著者 Mengshuo Jia,Zeyu Cui,Gabriela Hug
発行日 2025-05-19 15:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA, cs.SY, eess.SY | Enhancing LLMs for Power System Simulations: A Feedback-driven Multi-agent Framework はコメントを受け付けていません

Seeing the Unseen: How EMoE Unveils Bias in Text-to-Image Diffusion Models

要約

テキスト間拡散モデルの不確実性の推定は、パラメーター数が大きい(多くの場合1億を超える)、および事実上無限の入力可能性を備えた複雑で高次元の空間での動作のために困難です。
この論文では、拡散モデルの認識論的不確実性を効率的に推定するための新しいフレームワークである専門家(EMOE)の認識論的混合を提案します。
EMOEは、追加のトレーニングを必要とせずに事前に訓練されたネットワークを活用し、プロンプトからの直接的な不確実性の推定を可能にします。
既存の方法よりも認識論的な不確実性をよりよくキャプチャする拡散プロセス内の潜在空間を活用します。
COCOデータセットの実験結果は、エモーの有効性を示し、不確実性と画質の間に強い相関関係を示しています。
さらに、EMOEは不確実性が高いため、サンプリングされていない言語と地域を特定し、トレーニングセットに隠されたバイアスが明らかになります。
この能力は、AIが生成されたコンテンツの公平性と説明責任に対処するためのツールとしてのEMOEの関連性を示しています。

要約(オリジナル)

Estimating uncertainty in text-to-image diffusion models is challenging because of their large parameter counts (often exceeding 100 million) and operation in complex, high-dimensional spaces with virtually infinite input possibilities. In this paper, we propose Epistemic Mixture of Experts (EMoE), a novel framework for efficiently estimating epistemic uncertainty in diffusion models. EMoE leverages pre-trained networks without requiring additional training, enabling direct uncertainty estimation from a prompt. We leverage a latent space within the diffusion process that captures epistemic uncertainty better than existing methods. Experimental results on the COCO dataset demonstrate EMoE’s effectiveness, showing a strong correlation between uncertainty and image quality. Additionally, EMoE identifies under-sampled languages and regions with higher uncertainty, revealing hidden biases in the training set. This capability demonstrates the relevance of EMoE as a tool for addressing fairness and accountability in AI-generated content.

arxiv情報

著者 Lucas Berry,Axel Brando,Wei-Di Chang,Juan Camilo Gamboa Higuera,David Meger
発行日 2025-05-19 15:53:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Seeing the Unseen: How EMoE Unveils Bias in Text-to-Image Diffusion Models はコメントを受け付けていません

Hacking, The Lazy Way: LLM Augmented Pentesting

要約

私たちの研究では、「Pentest Copilot」という名前のツールで実証された「LLM Augmented Pentesting」と呼ばれる新しい概念を紹介します。これは、大規模な言語モデル(LLM)を浸透テストワークフローに統合し、高度なGPT-4-ターボモデルを活用することで倫理的ハッキングの分野に革命をもたらします。
私たちのアプローチは、LLMSを使用して特定のサブタスクを自動化しながら、全体的なテストプロセスの包括的な理解を確保することにより、浸透テストにおける自動化に対する従来の抵抗を克服することに焦点を当てています。
Pentest Copilotは、テストツールの利用、出力の解釈、フォローアップアクションの提案など、自動化されたシステムと人間の専門知識のギャップを効率的に埋めるなどのタスクの顕著な習熟度を示しています。
「思考の連鎖」メカニズムを統合することにより、Pentest Copilotはトークンの使用を最適化し、意思決定プロセスを強化し、より正確でコンテキスト認識した出力につながります。
さらに、検索された生成(RAG)の実装は幻覚を最小限に抑え、ツールが最新のサイバーセキュリティのテクニックと知識に合わせたままであることを保証します。
また、ブラウザ内の浸透テストをサポートするユニークなインフラストラクチャシステムを強調し、サイバーセキュリティの専門家に堅牢なプラットフォームを提供します。
私たちの調査結果は、LLMがペンテストを増強したことは、浸透テストのタスク完了率を大幅に向上させるだけでなく、実際の課題にも効果的に対処し、サイバーセキュリティドメインの実質的な進歩をマークすることを示しています。

要約(オリジナル)

In our research, we introduce a new concept called ‘LLM Augmented Pentesting’ demonstrated with a tool named ‘Pentest Copilot,’ that revolutionizes the field of ethical hacking by integrating Large Language Models (LLMs) into penetration testing workflows, leveraging the advanced GPT-4-turbo model. Our approach focuses on overcoming the traditional resistance to automation in penetration testing by employing LLMs to automate specific sub-tasks while ensuring a comprehensive understanding of the overall testing process. Pentest Copilot showcases remarkable proficiency in tasks such as utilizing testing tools, interpreting outputs, and suggesting follow-up actions, efficiently bridging the gap between automated systems and human expertise. By integrating a ‘chain of thought’ mechanism, Pentest Copilot optimizes token usage and enhances decision-making processes, leading to more accurate and context-aware outputs. Additionally, our implementation of Retrieval-Augmented Generation (RAG) minimizes hallucinations and ensures the tool remains aligned with the latest cybersecurity techniques and knowledge. We also highlight a unique infrastructure system that supports in-browser penetration testing, providing a robust platform for cybersecurity professionals. Our findings demonstrate that LLM Augmented Pentesting can not only significantly enhance task completion rates in penetration testing but also effectively addresses real-world challenges, marking a substantial advancement in the cybersecurity domain.

arxiv情報

著者 Dhruva Goyal,Sitaraman Subramanian,Aditya Peela,Nisha P. Shetty
発行日 2025-05-19 15:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, I.2.1 | Hacking, The Lazy Way: LLM Augmented Pentesting はコメントを受け付けていません

FlowPure: Continuous Normalizing Flows for Adversarial Purification

要約

この地域の大幅な進歩にもかかわらず、機械学習モデルを採用しているシステムでは、敵対的な堅牢性が重要な課題のままです。
敵対的浄化として知られる推論時間での敵対的摂動の除去は、有望な防衛戦略として浮上しています。
これを達成するために、最先端の方法は、逆境の摂動を希釈するために前方プロセス中にガウスノイズを注入する拡散モデルを活用し、その後分類前にクリーンサンプルを復元するための除去ステップが続きます。
この作業では、条件付きフローマッチング(CFM)で訓練された連続正規化フロー(CNFS)に基づいた新しい精製方法であるフローチャーを提案して、敵の例からクリーンなカウンターパートにマッピングを学習します。
固定ノイズプロセスに依存する以前の拡散ベースのアプローチとは異なり、Flowpureは特定の攻撃知識を活用して既知の脅威の下で堅牢性を改善すると同時に、そのような知識が利用できない設定のガウス摂動について訓練されたより一般的な確率的変異もサポートします。
CIFAR-10およびCIFAR-100での実験は、私たちの方法が、前室およびホワイトボックスシナリオの最先端の浄化ベースの防御よりも優れていることを示しており、前者の良性精度を完全に保存しながらそうすることができます。
さらに、我々の結果は、流動が非常に効果的な浄化器であるだけでなく、敵対的検出の強い可能性も保持し、完全な精度を持つ前処理器盲検PGDサンプルを特定することを示しています。

要約(オリジナル)

Despite significant advancements in the area, adversarial robustness remains a critical challenge in systems employing machine learning models. The removal of adversarial perturbations at inference time, known as adversarial purification, has emerged as a promising defense strategy. To achieve this, state-of-the-art methods leverage diffusion models that inject Gaussian noise during a forward process to dilute adversarial perturbations, followed by a denoising step to restore clean samples before classification. In this work, we propose FlowPure, a novel purification method based on Continuous Normalizing Flows (CNFs) trained with Conditional Flow Matching (CFM) to learn mappings from adversarial examples to their clean counterparts. Unlike prior diffusion-based approaches that rely on fixed noise processes, FlowPure can leverage specific attack knowledge to improve robustness under known threats, while also supporting a more general stochastic variant trained on Gaussian perturbations for settings where such knowledge is unavailable. Experiments on CIFAR-10 and CIFAR-100 demonstrate that our method outperforms state-of-the-art purification-based defenses in preprocessor-blind and white-box scenarios, and can do so while fully preserving benign accuracy in the former. Moreover, our results show that not only is FlowPure a highly effective purifier but it also holds a strong potential for adversarial detection, identifying preprocessor-blind PGD samples with near-perfect accuracy.

arxiv情報

著者 Elias Collaert,Abel Rodríguez,Sander Joos,Lieven Desmet,Vera Rimmer
発行日 2025-05-19 16:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | FlowPure: Continuous Normalizing Flows for Adversarial Purification はコメントを受け付けていません

Artificial Intelligence in Election Campaigns: Perceptions, Penalties, and Implications

要約

世界中の政党が選挙キャンペーンで人工知能(AI)を実験しているとき、欺ceptionと操作に関する懸念が高まっています。
この記事では、選挙におけるAIのさまざまな用途と、当事者の評価と規制の好みに対する潜在的な結果に国民がどのように反応するかを調べます。
7,600人以上のアメリカ人の回答者を対象とした3つの前提条件の研究で、AI使用の3つのカテゴリのキャンペーン運営、投票者のアウトリーチ、欺ceptionを特定しています。
人々は一般的にキャンペーンでAIを嫌いますが、彼らは特に欺cept的な用途を批判しており、それは規範違反として認識されています。
しかし、AI対応の欺ceptionに従事する当事者は、支持者でも敵にも、好意的に大きな低下に直面していません。
代わりに、欺ceptive AIの使用は、AI開発の完全な禁止の呼びかけを含む、より厳格なAI規制に対する一般的な支援を増加させます。
これらの調査結果は、欺cept的なAIの国民の不承認と政党の政治的インセンティブとの間の不整合を明らかにし、ターゲットを絞った規制監視の必要性を強調しています。
選挙でAIを完全に禁止するのではなく、規制は、民主的な革新を抑えることを避けるために、有害なアプリケーションと有益なアプリケーションを区別する必要があります。

要約(オリジナル)

As political parties around the world experiment with Artificial Intelligence (AI) in election campaigns, concerns about deception and manipulation are rising. This article examines how the public reacts to different uses of AI in elections and the potential consequences for party evaluations and regulatory preferences. Across three preregistered studies with over 7,600 American respondents, we identify three categories of AI use — campaign operations, voter outreach, and deception. While people generally dislike AI in campaigns, they are especially critical of deceptive uses, which they perceive as norm violations. However, parties engaging in AI-enabled deception face no significant drop in favorability, neither with supporters nor opponents. Instead, deceptive AI use increases public support for stricter AI regulation, including calls for an outright ban on AI development. These findings reveal a misalignment between public disapproval of deceptive AI and the political incentives of parties, underscoring the need for targeted regulatory oversight. Rather than banning AI in elections altogether, regulation should distinguish between harmful and beneficial applications to avoid stifling democratic innovation.

arxiv情報

著者 Andreas Jungherr,Adrian Rauchfleisch,Alexander Wuttke
発行日 2025-05-19 16:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, I.2 | Artificial Intelligence in Election Campaigns: Perceptions, Penalties, and Implications はコメントを受け付けていません

Level Generation with Quantum Reservoir Computing

要約

貯水池コンピューティングは、予測予測を含む時系列分析に特に適した機械学習の一種です。
最初は音楽スコアのバリエーションを生成し、これらのレベルの分析によって動機付けられたスーパーマリオブラザーズのレベルを作成するように最初に設計された\ emph {Quantum}リザーバーコンピューティングの実装を行います。

要約(オリジナル)

Reservoir computing is a form of machine learning particularly suited for time series analysis, including forecasting predictions. We take an implementation of \emph{quantum} reservoir computing that was initially designed to generate variants of musical scores and adapt it to create levels of Super Mario Bros. Motivated by our analysis of these levels, we develop a new Roblox \textit{obby} where the courses can be generated in real time on superconducting qubit hardware, and investigate some of the constraints placed by such real-time generation.

arxiv情報

著者 João S. Ferreira,Pierre Fromholz,Hari Shaji,James R. Wootton
発行日 2025-05-19 16:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, quant-ph | Level Generation with Quantum Reservoir Computing はコメントを受け付けていません

TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents

要約

時系列機械学習エンジニアリングの課題で人工知能(AI)エージェントを評価するためのスケーラブルなベンチマークフレームワークであるTimeseriesgymを紹介します。
既存のベンチマークにはスケーラビリティがなく、明確に定義された設定でモデル構築に狭く焦点を当て、限られた一連の研究アーティファクト(CSV提出ファイルなど)のみを評価します。
AIエージェントベンチマークを機械学習エンジニアリングの実践により関連させるために、2つの重要な次元に沿ってフレームワークが拡大します。
第一に、効果的なMLエンジニアリングにはさまざまなスキルが必要であることを認識すると、TimeSeriesGymには複数のドメインとタスクにまたがる多様なソースからの課題が組み込まれています。
孤立した機能(データ処理、研究リポジトリの理解、コード翻訳の理解など)とその組み合わせの両方を評価するための課題を設計し、各課題に独立して対処するのではなく、大規模な複数の課題の設計をサポートするツールを開発します。
第二に、正確な数値尺度とより柔軟なLLMベースの評価アプローチの両方を使用して、提出ファイル、コード、モデルなど、複数の研究アーティファクトの評価メカニズムを実装します。
この二重戦略は、客観的評価と文脈上の判断のバランスをとります。
当初の焦点は時系列アプリケーションにありますが、私たちのフレームワークは他のデータモダリティに容易に拡張でき、エージェントAI評価の包括性と実用性を大幅に向上させることができます。
AIエージェントのMLエンジニアリング機能に関する将来の研究を促進するために、ベンチマークフレームワークをオープンソーシングします。

要約(オリジナル)

We introduce TimeSeriesGym, a scalable benchmarking framework for evaluating Artificial Intelligence (AI) agents on time series machine learning engineering challenges. Existing benchmarks lack scalability, focus narrowly on model building in well-defined settings, and evaluate only a limited set of research artifacts (e.g., CSV submission files). To make AI agent benchmarking more relevant to the practice of machine learning engineering, our framework scales along two critical dimensions. First, recognizing that effective ML engineering requires a range of diverse skills, TimeSeriesGym incorporates challenges from diverse sources spanning multiple domains and tasks. We design challenges to evaluate both isolated capabilities (including data handling, understanding research repositories, and code translation) and their combinations, and rather than addressing each challenge independently, we develop tools that support designing multiple challenges at scale. Second, we implement evaluation mechanisms for multiple research artifacts, including submission files, code, and models, using both precise numeric measures and more flexible LLM-based evaluation approaches. This dual strategy balances objective assessment with contextual judgment. Although our initial focus is on time series applications, our framework can be readily extended to other data modalities, broadly enhancing the comprehensiveness and practical utility of agentic AI evaluation. We open-source our benchmarking framework to facilitate future research on the ML engineering capabilities of AI agents.

arxiv情報

著者 Yifu Cai,Xinyu Li,Mononito Goswami,Michał Wiliński,Gus Welter,Artur Dubrawski
発行日 2025-05-19 16:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | TimeSeriesGym: A Scalable Benchmark for (Time Series) Machine Learning Engineering Agents はコメントを受け付けていません