Towards Unified Music Emotion Recognition across Dimensional and Categorical Models

要約

音楽感情認識(MER)における最も重要な課題の1つは、感情ラベルがカテゴリー(例えば、幸せ、悲しい)対寸法ラベル(例えば、価電子覚醒)を含む感情表現に関してデータセット全体で不均一になる可能性があるという事実に由来しています。
このペーパーでは、これら2つのタイプのラベルを組み合わせた統一されたマルチタスク学習フレームワークを紹介し、したがって、複数のデータセットでトレーニングできるようにします。
このフレームワークは、音楽の特徴(つまり、キーとコード)とMERT埋め込みを組み合わせた効果的な入力表現を使用します。
さらに、知識の蒸留が採用されており、個々のデータセットでトレーニングされた教師モデルの知識を学生モデルに転送し、複数のタスクにわたって一般化する能力を高めます。
提案されたフレームワークを検証するために、MTG-Jamendo、Deam、PMEMO、Emomusicなど、さまざまなデータセットで広範な実験を実施しました。
実験結果によると、音楽の特徴、マルチタスク学習、知識の蒸留を含めると、パフォーマンスが大幅に向上します。
特に、私たちのモデルは、MTG-Jamendo DatasetでのMediaVal 2021競争からの最高のパフォーマンスモデルを含む、最先端のモデルよりも優れています。
私たちの仕事は、1つの統一されたフレームワークでカテゴリとディメンションの感情ラベルの組み合わせを許可し、データセット全体でトレーニングを可能にすることにより、MERに大きく貢献します。

要約(オリジナル)

One of the most significant challenges in Music Emotion Recognition (MER) comes from the fact that emotion labels can be heterogeneous across datasets with regard to the emotion representation, including categorical (e.g., happy, sad) versus dimensional labels (e.g., valence-arousal). In this paper, we present a unified multitask learning framework that combines these two types of labels and is thus able to be trained on multiple datasets. This framework uses an effective input representation that combines musical features (i.e., key and chords) and MERT embeddings. Moreover, knowledge distillation is employed to transfer the knowledge of teacher models trained on individual datasets to a student model, enhancing its ability to generalize across multiple tasks. To validate our proposed framework, we conducted extensive experiments on a variety of datasets, including MTG-Jamendo, DEAM, PMEmo, and EmoMusic. According to our experimental results, the inclusion of musical features, multitask learning, and knowledge distillation significantly enhances performance. In particular, our model outperforms the state-of-the-art models, including the best-performing model from the MediaEval 2021 competition on the MTG-Jamendo dataset. Our work makes a significant contribution to MER by allowing the combination of categorical and dimensional emotion labels in one unified framework, thus enabling training across datasets.

arxiv情報

著者 Jaeyong Kang,Dorien Herremans
発行日 2025-04-11 12:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Towards Unified Music Emotion Recognition across Dimensional and Categorical Models はコメントを受け付けていません

ANSR-DT: An Adaptive Neuro-Symbolic Learning and Reasoning Framework for Digital Twins

要約

このホワイトペーパーでは、「ANSR-DT」と呼ばれるデジタルツインテクノロジーの適応性のある神経シンボリック学習と推論フレームワークを提案します。
産業環境のデジタル双子は、多くの場合、解釈可能性、リアルタイムの適応、および人間の入力統合に苦労しています。
私たちのアプローチは、CNN-LSTMの動的イベント検出と強化学習と象徴的な推論を組み合わせて、解釈可能な決定プロセスで適応性のあるインテリジェンスを可能にすることにより、これらの課題に対処します。
この統合は、継続的な学習を促進しながら環境の理解を高め、人間の協調アプリケーションにおけるより効果的なリアルタイムの意思決定につながります。
合成産業データに関するANSR-DTを評価し、動的なパターン認識のために最大99.5%の精度で、従来のアプローチに対する大幅な改善を観察しました。
このフレームワークは、拡張された強化学習トレーニングを伴う優れた適応性を実証し、説明された分散を0.447から0.547に改善しました。
将来の作業は、現在の14のルールを超えてルール管理をテストするために、より大きなデータセットにスケーリングすることを目的としています。
当社のオープンソースの実装は、再現性を促進し、産業用アプリケーション向けの適応的で解釈可能な双子の将来の研究の基盤を確立します。

要約(オリジナル)

In this paper, we propose an Adaptive Neuro-Symbolic Learning and Reasoning Framework for digital twin technology called “ANSR-DT.’ Digital twins in industrial environments often struggle with interpretability, real-time adaptation, and human input integration. Our approach addresses these challenges by combining CNN-LSTM dynamic event detection with reinforcement learning and symbolic reasoning to enable adaptive intelligence with interpretable decision processes. This integration enhances environmental understanding while promoting continuous learning, leading to more effective real-time decision-making in human-machine collaborative applications. We evaluated ANSR-DT on synthetic industrial data, observing significant improvements over traditional approaches, with up to 99.5% accuracy for dynamic pattern recognition. The framework demonstrated superior adaptability with extended reinforcement learning training, improving explained variance from 0.447 to 0.547. Future work aims at scaling to larger datasets to test rule management beyond the current 14 rules. Our open-source implementation promotes reproducibility and establishes a foundation for future research in adaptive, interpretable digital twins for industrial applications.

arxiv情報

著者 Safayat Bin Hakim,Muhammad Adil,Alvaro Velasquez,Houbing Herbert Song
発行日 2025-04-11 13:05:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.SC | ANSR-DT: An Adaptive Neuro-Symbolic Learning and Reasoning Framework for Digital Twins はコメントを受け付けていません

Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion

要約

音声変換(VC)は、コンテンツを保存することにより、ソース音声をターゲット音声に変換します。
ただし、ソーススピーカーからの音色情報は、本質的にコンテンツ表現に埋め込まれており、大幅な音色の漏れを引き起こし、ターゲットスピーカーとの類似性を減らします。
これに対処するために、コンテンツ抽出器に残留ブロックを導入します。
残差ブロックは、2つの重み付けされた分岐で構成されています。1)ユニバーサルセマンティック辞書ベースのコンテンツ機能の再発現(CFR)モジュールは、音色のないコンテンツ表現を提供します。
2)元のコンテンツレイヤーへの接続をスキップし、補完的な細粒情報を提供します。
CFRモジュールでは、ユニバーサルセマンティック辞書の各辞書エントリは、複数のスピーカーからの音声を使用して統計的に計算された音素クラスを表し、安定したスピーカーに依存しないセマンティックセットを作成します。
各コンテンツフレームを、対応する音素事後の重みを重みとして使用して辞書エントリの加重線形組み合わせとして表現することにより、CFRメソッドを導入して、音色のないコンテンツ表現を取得します。
さまざまなVCフレームワークにわたる広範な実験は、私たちのアプローチが音色の漏れを効果的に軽減し、ターゲットスピーカーとの類似性を大幅に改善することを示しています。

要約(オリジナル)

Voice conversion (VC) transforms source speech into a target voice by preserving the content. However, timbre information from the source speaker is inherently embedded in the content representations, causing significant timbre leakage and reducing similarity to the target speaker. To address this, we introduce a residual block to a content extractor. The residual block consists of two weighted branches: 1) universal semantic dictionary based Content Feature Re-expression (CFR) module, supplying timbre-free content representation. 2) skip connection to the original content layer, providing complementary fine-grained information. In the CFR module, each dictionary entry in the universal semantic dictionary represents a phoneme class, computed statistically using speech from multiple speakers, creating a stable, speaker-independent semantic set. We introduce a CFR method to obtain timbre-free content representations by expressing each content frame as a weighted linear combination of dictionary entries using corresponding phoneme posteriors as weights. Extensive experiments across various VC frameworks demonstrate that our approach effectively mitigates timbre leakage and significantly improves similarity to the target speaker.

arxiv情報

著者 Na Li,Chuke Wang,Yu Gu,Zhifeng Li
発行日 2025-04-11 13:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Mitigating Timbre Leakage with Universal Semantic Mapping Residual Block for Voice Conversion はコメントを受け付けていません

Task Memory Engine (TME): Enhancing State Awareness for Multi-Step LLM Agent Tasks

要約

大規模な言語モデル(LLM)は、マルチステップタスクの自律エージェントとしてますます使用されています。
ただし、ほとんどの既存のフレームワークは、タスク状態の構造化された理解を維持することができず、多くの場合、線形プロンプトの連結または浅いメモリバッファに依存しています。
これは、脆い性能、頻繁な幻覚、および長距離の依存性の低さにつながります。
この作業では、階層タスクメモリツリー(TMT)を使用してタスクの実行を追跡する軽量で構造化されたメモリモジュールであるタスクメモリエンジン(TME)を提案します。
ツリー内の各ノードはタスクステップに対応し、関連する入力、出力、ステータス、およびサブタスクの関係を保存します。
アクティブなノードパスに基づいてLLMプロンプトを動的に生成するプロンプト合成方法を導入し、実行の一貫性とコンテキスト接地を大幅に改善します。
マルチステップエージェントタスクに関するケーススタディと比較実験を通じて、TMEが最小限の実装のオーバーヘッドでより良いタスク完了精度とより解釈可能な動作につながることを実証します。
TMEの完全な実装は、https://github.com/biubiutomato/tme-agentで入手できます。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used as autonomous agents for multi-step tasks. However, most existing frameworks fail to maintain a structured understanding of the task state, often relying on linear prompt concatenation or shallow memory buffers. This leads to brittle performance, frequent hallucinations, and poor long-range coherence. In this work, we propose the Task Memory Engine (TME), a lightweight and structured memory module that tracks task execution using a hierarchical Task Memory Tree (TMT). Each node in the tree corresponds to a task step, storing relevant input, output, status, and sub-task relationships. We introduce a prompt synthesis method that dynamically generates LLM prompts based on the active node path, significantly improving execution consistency and contextual grounding. Through case studies and comparative experiments on multi-step agent tasks, we demonstrate that TME leads to better task completion accuracy and more interpretable behavior with minimal implementation overhead. The full implementation of TME is available at https://github.com/biubiutomato/TME-Agent.

arxiv情報

著者 Ye Ye
発行日 2025-04-11 13:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.CL, H.3.3 | Task Memory Engine (TME): Enhancing State Awareness for Multi-Step LLM Agent Tasks はコメントを受け付けていません

Hallucination, reliability, and the role of generative AI in science

要約

生成AIは、タンパク質の折り畳みから気候モデリングまで、科学的領域でますます使用されています。
しかし、これらのモデルは、幻覚として知られる特徴的な誤差を生成します。これは、間違っているが表面的にもっともらしい出力です。
さらに悪いことに、いくつかの議論は、幻覚が生成的推論の根底にあるメカニズムの必然的な結果であることを示唆しています。
幸いなことに、そのような議論は、経験的ターゲットシステムに関してではなく、モデルの内部特性に関してのみ定義された幻覚の概念に依存しています。
この概念は、認識論的に良性のエラーを科学的推論を脅かすものと区別することができません。
腐食性の幻覚の概念を紹介して、認識論的に厄介なサブクラスを捉えています。これは、系統的な予想に実質的に誤解を招き、抵抗性のある不実表示です。
腐食性の幻覚は科学的信頼性に脅威をもたらしますが、避けられないと主張します。
どちらもケーススタディとして機能するAlphafoldやGencastを取り巻く科学的ワークフローは、トレーニング中に理論的制約を課し、推論時にエラーを戦略的にスクリーニングすることにより、その効果を中和することができます。
このようなワークフローに埋め込まれた場合、生成的AIは科学的知識に確実に貢献できます。

要約(オリジナル)

Generative AI is increasingly used in scientific domains, from protein folding to climate modeling. But these models produce distinctive errors known as hallucinations – outputs that are incorrect yet superficially plausible. Worse, some arguments suggest that hallucinations are an inevitable consequence of the mechanisms underlying generative inference. Fortunately, such arguments rely on a conception of hallucination defined solely with respect to internal properties of the model, rather than in reference to the empirical target system. This conception fails to distinguish epistemically benign errors from those that threaten scientific inference. I introduce the concept of corrosive hallucination to capture the epistemically troubling subclass: misrepresentations that are substantively misleading and resistant to systematic anticipation. I argue that although corrosive hallucinations do pose a threat to scientific reliability, they are not inevitable. Scientific workflows such as those surrounding AlphaFold and GenCast, both of which serve as case studies, can neutralize their effects by imposing theoretical constraints during training, and by strategically screening for errors at inference time. When embedded in such workflows, generative AI can reliably contribute to scientific knowledge.

arxiv情報

著者 Charles Rathkopf
発行日 2025-04-11 13:38:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Hallucination, reliability, and the role of generative AI in science はコメントを受け付けていません

LGRPool: Hierarchical Graph Pooling Via Local-Global Regularisation

要約

階層グラフプーリング(HGP)は、従来のグラフニューラルネットワーク(GNN)が本質的にフラットであり、マルチスケールではないという事実を考慮するように設計されています。
ただし、ほとんどのHGPメソッドは、グラフのグローバルトポロジーを考慮し、機能学習の側面に焦点を当てているだけでなく、グラフをマルチスケールの方法で本質的に分析する必要があるため、ローカルおよびグローバルな機能に焦点を合わせていません。
LGRPOOLは、本書では、正規者を使用してメッセージのローカルおよびグローバルな側面を互いに通過させる機械学習における期待の最大化の枠組みのHGPとして提案されています。
いくつかのグラフ分類ベンチマークでの実験結果は、いくつかのベースラインをわずかに上回ることを示しています。

要約(オリジナル)

Hierarchical graph pooling(HGP) are designed to consider the fact that conventional graph neural networks(GNN) are inherently flat and are also not multiscale. However, most HGP methods suffer not only from lack of considering global topology of the graph and focusing on the feature learning aspect, but also they do not align local and global features since graphs should inherently be analyzed in a multiscale way. LGRPool is proposed in the present paper as a HGP in the framework of expectation maximization in machine learning that aligns local and global aspects of message passing with each other using a regularizer to force the global topological information to be inline with the local message passing at different scales through the representations at different layers of HGP. Experimental results on some graph classification benchmarks show that it slightly outperforms some baselines.

arxiv情報

著者 Farshad Noravesh,Reza Haffari,Layki Soon,Arghya Pal
発行日 2025-04-11 13:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | LGRPool: Hierarchical Graph Pooling Via Local-Global Regularisation はコメントを受け付けていません

Explainability and Continual Learning meet Federated Learning at the Network Edge

要約

ワイヤレスネットワークでエッジデバイスがより能力と広範になるにつれて、分散学習のために集合的な計算力を活用することに関心が高まっています。
ただし、ネットワークエッジで学習を最適化するには、特に従来の設定と目的を超えて移動する場合、独自の課題が必要です。
Federated Learning(FL)は、分散モデルトレーニングの重要なパラダイムとして浮上していますが、重大な課題は持続しています。
第一に、既存のアプローチは、予測精度と解釈可能性の間のトレードオフを見落としていることがよくあります。
第二に、彼らは決定できない構造により、バックプロパゲーションベースのトレーニングアルゴリズムに適していないため、意思決定ツリーなどの本質的に説明可能なモデルを統合するのに苦労しています。
最後に、それらは、リソース制限環境での継続的な学習(CL)を通じて、継続的な機械学習(ML)モデル適応の意味のあるメカニズムを欠いています。
この論文では、ワイヤレスで相互接続されたエッジデバイスを使用して、ネットワークエッジで分散学習に出てくる一連の新しい最適化問題への道を開き、重要な課題と将来の方向性を特定します。
具体的には、複雑な予測モデルを使用する際の予測精度と説明可能性とのトレードオフに対処するために、多目的最適化(MOO)を使用する方法について説明します。
次に、本質的に説明可能なツリーベースのモデルを分散学習設定に統合することの意味について説明します。
最後に、CL戦略をFLと効果的に組み合わせて、限られたサイズのバッファーを使用して過去のデータを再訓練用に保存する場合、適応性のある生涯学習をサポートする方法を調査します。
私たちのアプローチは、エッジコンピューティングとインテリジェントサービスの需要に合わせたプライバシーを提供し、適応性があり、信頼できるMLソリューションを設計するための一連のツールセットを提供します。

要約(オリジナル)

As edge devices become more capable and pervasive in wireless networks, there is growing interest in leveraging their collective compute power for distributed learning. However, optimizing learning at the network edge entails unique challenges, particularly when moving beyond conventional settings and objectives. While Federated Learning (FL) has emerged as a key paradigm for distributed model training, critical challenges persist. First, existing approaches often overlook the trade-off between predictive accuracy and interpretability. Second, they struggle to integrate inherently explainable models such as decision trees because their non-differentiable structure makes them not amenable to backpropagation-based training algorithms. Lastly, they lack meaningful mechanisms for continual Machine Learning (ML) model adaptation through Continual Learning (CL) in resource-limited environments. In this paper, we pave the way for a set of novel optimization problems that emerge in distributed learning at the network edge with wirelessly interconnected edge devices, and we identify key challenges and future directions. Specifically, we discuss how Multi-objective optimization (MOO) can be used to address the trade-off between predictive accuracy and explainability when using complex predictive models. Next, we discuss the implications of integrating inherently explainable tree-based models into distributed learning settings. Finally, we investigate how CL strategies can be effectively combined with FL to support adaptive, lifelong learning when limited-size buffers are used to store past data for retraining. Our approach offers a cohesive set of tools for designing privacy-preserving, adaptive, and trustworthy ML solutions tailored to the demands of edge computing and intelligent services.

arxiv情報

著者 Thomas Tsouparopoulos,Iordanis Koutsopoulos
発行日 2025-04-11 13:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Explainability and Continual Learning meet Federated Learning at the Network Edge はコメントを受け付けていません

Towards an Evaluation Framework for Explainable Artificial Intelligence Systems for Health and Well-being

要約

コンピューターシステムの開発における人工知能の統合は、新しい課題を提示します。人間がインテリジェントなシステムを説明できるようにします。
これは、意思決定支援システムの透明性により、医療従事者が自動化された意思決定と予測を理解し、信頼することができる健康と幸福の分野では特に重要です。
このニーズに対処するには、説明可能なAIシステムの開発をガイドするためのツールが必要です。
この論文では、健康と幸福のための説明可能なAIシステムの開発をサポートするために設計された評価フレームワークを紹介します。
さらに、実際のフレームワークの適用を示すケーススタディを提示します。
私たちのフレームワークは、ヘルスケアで説明可能なAIシステムを開発するだけでなく、個人に大きな影響を与えるAIシステムにとっても貴重なツールとして機能すると考えています。

要約(オリジナル)

The integration of Artificial Intelligence in the development of computer systems presents a new challenge: make intelligent systems explainable to humans. This is especially vital in the field of health and well-being, where transparency in decision support systems enables healthcare professionals to understand and trust automated decisions and predictions. To address this need, tools are required to guide the development of explainable AI systems. In this paper, we introduce an evaluation framework designed to support the development of explainable AI systems for health and well-being. Additionally, we present a case study that illustrates the application of the framework in practice. We believe that our framework can serve as a valuable tool not only for developing explainable AI systems in healthcare but also for any AI system that has a significant impact on individuals.

arxiv情報

著者 Esperança Amengual-Alcover,Antoni Jaume-i-Capó,Miquel Miró-Nicolau,Gabriel Moyà-Alcover,Antonia Paniza-Fullana
発行日 2025-04-11 14:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards an Evaluation Framework for Explainable Artificial Intelligence Systems for Health and Well-being はコメントを受け付けていません

Uncovering the Structure of Explanation Quality with Spectral Analysis

要約

ハイステークスドメインでは機械学習モデルがますます考慮されるため、予測戦略がユーザーに対して透明であることを保証するために、効果的な説明方法が重要です。
長年にわたり、説明の質を評価するために多数のメトリックが提案されてきました。
ただし、特に、各メトリックのどの側面がどのような側面に報いるかについての理解が限られているため、実際の適用性は不明のままです。
この論文では、説明結果のスペクトル分析に基づいて新しいフレームワークを提案し、さまざまな説明手法の多面的な特性を体系的にキャプチャします。
私たちの分析は、説明の質の安定性とターゲット感度の2つの異なる要因を明らかにします。これは、スペクトル分解によって直接観察できます。
MnistとImagenetの両方での実験は、一般的な評価技術(例:ピクセル滑り、エントロピー)がこれらの要因間のトレードオフを部分的にキャプチャすることを示しています。
全体として、私たちのフレームワークは、説明の品質を理解するための基礎的な基盤を提供し、説明を評価するためのより信頼性の高い手法の開発を導きます。

要約(オリジナル)

As machine learning models are increasingly considered for high-stakes domains, effective explanation methods are crucial to ensure that their prediction strategies are transparent to the user. Over the years, numerous metrics have been proposed to assess quality of explanations. However, their practical applicability remains unclear, in particular due to a limited understanding of which specific aspects each metric rewards. In this paper we propose a new framework based on spectral analysis of explanation outcomes to systematically capture the multifaceted properties of different explanation techniques. Our analysis uncovers two distinct factors of explanation quality-stability and target sensitivity-that can be directly observed through spectral decomposition. Experiments on both MNIST and ImageNet show that popular evaluation techniques (e.g., pixel-flipping, entropy) partially capture the trade-offs between these factors. Overall, our framework provides a foundational basis for understanding explanation quality, guiding the development of more reliable techniques for evaluating explanations.

arxiv情報

著者 Johannes Maeß,Grégoire Montavon,Shinichi Nakajima,Klaus-Robert Müller,Thomas Schnake
発行日 2025-04-11 14:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Uncovering the Structure of Explanation Quality with Spectral Analysis はコメントを受け付けていません

DSBench: How Far Are Data Science Agents from Becoming Data Science Experts?

要約

大規模な言語モデル(LLMS)および大規模なビジョン言語モデル(LVLMS)は、ショッピングアシスタントやAIソフトウェアエンジニアなどのターゲットアプリケーションの建築エージェントの最近の傾向に火に火をつけて、印象的な言語/ビジョン推論能力を実証しています。
最近、データサイエンスドメインでのパフォーマンスを調査するために、多くのデータサイエンスベンチマークが提案されています。
ただし、既存のデータサイエンスベンチマークは、単純化された設定により、実際のデータサイエンスアプリケーションと比較するとまだ不足しています。
このギャップを埋めるために、DSBenchを紹介します。DSBenchは、現実的なタスクでデータサイエンスエージェントを評価するために設計された包括的なベンチマークです。
このベンチマークには、466のデータ分析タスクと74のデータモデリングタスクが含まれ、雄弁とKaggleの競技から供給されています。
DSBenchは、長いコンテキスト、マルチモーダルタスクの背景、大きなデータファイルとマルチテーブル構造を使用した推論、エンドツーエンドのデータモデリングタスクを実行することにより、現実的な設定を提供します。
最先端のLLMS、LVLMS、およびエージェントの評価は、ほとんどのタスクに苦労していることを示しており、最高のエージェントはデータ分析タスクの34.12%のみを解決し、34.74%の相対パフォーマンスギャップ(RPG)を達成しています。
これらの調査結果は、より実用的で、インテリジェントで、自律的なデータサイエンスエージェントを開発する際のさらなる進歩の必要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) have demonstrated impressive language/vision reasoning abilities, igniting the recent trend of building agents for targeted applications such as shopping assistants or AI software engineers. Recently, many data science benchmarks have been proposed to investigate their performance in the data science domain. However, existing data science benchmarks still fall short when compared to real-world data science applications due to their simplified settings. To bridge this gap, we introduce DSBench, a comprehensive benchmark designed to evaluate data science agents with realistic tasks. This benchmark includes 466 data analysis tasks and 74 data modeling tasks, sourced from Eloquence and Kaggle competitions. DSBench offers a realistic setting by encompassing long contexts, multimodal task backgrounds, reasoning with large data files and multi-table structures, and performing end-to-end data modeling tasks. Our evaluation of state-of-the-art LLMs, LVLMs, and agents shows that they struggle with most tasks, with the best agent solving only 34.12% of data analysis tasks and achieving a 34.74% Relative Performance Gap (RPG). These findings underscore the need for further advancements in developing more practical, intelligent, and autonomous data science agents.

arxiv情報

著者 Liqiang Jing,Zhehui Huang,Xiaoyang Wang,Wenlin Yao,Wenhao Yu,Kaixin Ma,Hongming Zhang,Xinya Du,Dong Yu
発行日 2025-04-11 14:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? はコメントを受け付けていません