Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform

要約

自動音楽転写(AMT)は、音楽のオーディオ録音を分析し、再生されているメモを検出する問題です。
特にポリフォニック音楽に関しては、AMTは挑戦的な問題です。
AMTの目標は、同時に再生された複数の音符を含むサウンド信号を分析することにより、音楽作品のスコア表現を作成することです。
この作業では、.WAV形式のクラシックピアノオーディオファイルを音楽スコア表現に変換できる処理パイプラインを設計します。
オーディオ信号からの機能は、定数Q変換を使用して抽出され、結果の係数は畳み込みニューラルネットワーク(CNN)モデルへの入力として使用されます。

要約(オリジナル)

Automatic music transcription (AMT) is the problem of analyzing an audio recording of a musical piece and detecting notes that are being played. AMT is a challenging problem, particularly when it comes to polyphonic music. The goal of AMT is to produce a score representation of a music piece, by analyzing a sound signal containing multiple notes played simultaneously. In this work, we design a processing pipeline that can transform classical piano audio files in .wav format into a music score representation. The features from the audio signals are extracted using the constant-Q transform, and the resulting coefficients are used as an input to the convolutional neural network (CNN) model.

arxiv情報

著者 Yohannis Telila,Tommaso Cucinotta,Davide Bacciu
発行日 2025-05-07 14:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform はコメントを受け付けていません

A Survey on Temporal Interaction Graph Representation Learning: Progress, Challenges, and Opportunities

要約

タイムスタンプ付き相互作用イベントのシーケンスによって定義された時間的相互作用グラフ(TIG)は、複雑な動的システムの動作をモデル化する能力により、実際のアプリケーションで遍在しています。
その結果、一時的な相互作用グラフ表現学習(TIGRL)は、近年大きな注目を集めています。
Tigrlは、TIGSのノードを低次元表現に埋め込むことを目的としており、構造情報と時間的情報の両方を効果的に保存し、それにより、絶えず進化するデータ環境内での分類、予測、クラスタリングなどのダウンストリームタスクのパフォーマンスを向上させます。
この論文では、TIGSの基本的な概念を紹介し、時間的依存関係の重要な役割を強調することから始めます。
次に、最先端のTIGRLメソッドの包括的な分類法を提案し、TIGに固有の独自の課題に対処するために、学習プロセス中に利用される情報の種類に基づいて体系的に分類します。
さらなる研究と実用的なアプリケーションを促進するために、データセットとベンチマークのソースをキュレートし、経験的調査に貴重なリソースを提供します。
最後に、私たちは重要なオープンな課題を調べ、Tigrlの有望な研究の方向性を探求し、この分野の進化を形作る可能性のある将来の進歩の基礎を築きます。

要約(オリジナル)

Temporal interaction graphs (TIGs), defined by sequences of timestamped interaction events, have become ubiquitous in real-world applications due to their capability to model complex dynamic system behaviors. As a result, temporal interaction graph representation learning (TIGRL) has garnered significant attention in recent years. TIGRL aims to embed nodes in TIGs into low-dimensional representations that effectively preserve both structural and temporal information, thereby enhancing the performance of downstream tasks such as classification, prediction, and clustering within constantly evolving data environments. In this paper, we begin by introducing the foundational concepts of TIGs and emphasize the critical role of temporal dependencies. We then propose a comprehensive taxonomy of state-of-the-art TIGRL methods, systematically categorizing them based on the types of information utilized during the learning process to address the unique challenges inherent to TIGs. To facilitate further research and practical applications, we curate the source of datasets and benchmarks, providing valuable resources for empirical investigations. Finally, we examine key open challenges and explore promising research directions in TIGRL, laying the groundwork for future advancements that have the potential to shape the evolution of this field.

arxiv情報

著者 Pengfei Jiao,Hongjiang Chen,Xuan Guo,Zhidong Zhao,Dongxiao He,Di Jin
発行日 2025-05-07 14:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI | A Survey on Temporal Interaction Graph Representation Learning: Progress, Challenges, and Opportunities はコメントを受け付けていません

Discriminative Ordering Through Ensemble Consensus

要約

クラスタリングモデルのパフォーマンスを評価することは、結果がクラスターを構成するものの定義に依存する挑戦的なタスクです。
この設計により、現在の既存のメトリックは、多様なクラスター定義を備えた複数のクラスタリングモデルをめったに処理することはほとんどなく、利用可能な場合は制約の統合に準拠していません。
この作業では、コンセンサスクラスタリングからインスピレーションを得て、一連のクラスタリングモデルがデータの隠された構造を明らかにできると仮定します。
クラスタリングモデルの接続性とコンセンサスマトリックスの間の距離に基づいて、アンサンブルクラスタリングを通じて識別順序を構築することを提案します。
最初に提案された方法を合成シナリオで検証し、提案されたスコアが最初にコンセンサスに最もよく一致するモデルをランク付けすることを強調します。
次に、この単純なランキングスコアは、固定数のクラスターに限定されておらず、クラスタリングの制約と互換性のある異なるクラスタリングアルゴリズムのセットを比較するときに、他のスコアリング方法を大幅に上回ることを示します。

要約(オリジナル)

Evaluating the performance of clustering models is a challenging task where the outcome depends on the definition of what constitutes a cluster. Due to this design, current existing metrics rarely handle multiple clustering models with diverse cluster definitions, nor do they comply with the integration of constraints when available. In this work, we take inspiration from consensus clustering and assume that a set of clustering models is able to uncover hidden structures in the data. We propose to construct a discriminative ordering through ensemble clustering based on the distance between the connectivity of a clustering model and the consensus matrix. We first validate the proposed method with synthetic scenarios, highlighting that the proposed score ranks the models that best match the consensus first. We then show that this simple ranking score significantly outperforms other scoring methods when comparing sets of different clustering algorithms that are not restricted to a fixed number of clusters and is compatible with clustering constraints.

arxiv情報

著者 Louis Ohl,Fredrik Lindsten
発行日 2025-05-07 14:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, cs.AI, cs.LG, G.3 | Discriminative Ordering Through Ensemble Consensus はコメントを受け付けていません

Spectral and Temporal Denoising for Differentially Private Optimization

要約

このペーパーでは、FFT強化Kalmanフィルター(FFTKF)を紹介します。これは、DP-SGDのパフォーマンスを維持するという課題に対処する差別的にプライベートな最適化方法であり、通常はモデルの有用性を分解します。
FFTKFは、$(\ varepsilon、\ delta)$ -DP保証を保持しながら、勾配の品質を高めるために、周波数ドメインノイズシェーピングをKalmanフィルタリングと統合します。
フーリエドメインの高周波形状マスクを使用して、低周波勾配信号を保存する、より有益でないスペクトルコンポーネントに差動プライバシーノイズを集中させます。
有限差額のヘシアン近似を備えたスカラーゲインカルマンフィルターは、除去された勾配をさらに改良します。
$ \ mathcal {o}(d \ log d)$の適性ごとの複雑さにより、fftkfは、CNN、幅のレストネット、視力変換を使用して、MNIST、CIFAR-10、CIFAR-100、および小さなイマゲネットデータセット全体でDP-SGDおよびディスクにわたってテスト精度の改善を示しています。
理論分析により、FFTKFは、ノイズの減少と制御バイアスを通じてより厳しいプライバシー性活動のトレードオフを達成しながら、同等のプライバシー保証を維持していることが確認されています。

要約(オリジナル)

This paper introduces the FFT-Enhanced Kalman Filter (FFTKF), a differentially private optimization method that addresses the challenge of preserving performance in DP-SGD, where added noise typically degrades model utility. FFTKF integrates frequency-domain noise shaping with Kalman filtering to enhance gradient quality while preserving $(\varepsilon, \delta)$-DP guarantees. It employs a high-frequency shaping mask in the Fourier domain to concentrate differential privacy noise in less informative spectral components, preserving low-frequency gradient signals. A scalar-gain Kalman filter with finite-difference Hessian approximation further refines the denoised gradients. With a per-iteration complexity of $\mathcal{O}(d \log d)$, FFTKF demonstrates improved test accuracy over DP-SGD and DiSK across MNIST, CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets using CNNs, Wide ResNets, and Vision Transformers. Theoretical analysis confirms that FFTKF maintains equivalent privacy guarantees while achieving a tighter privacy-utility trade-off through reduced noise and controlled bias.

arxiv情報

著者 Hyeju Shin,Kyudan Jung,Seongwon Yun,Juyoung Yun
発行日 2025-05-07 14:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, cs.NE, math.IT | Spectral and Temporal Denoising for Differentially Private Optimization はコメントを受け付けていません

TrajEvo: Designing Trajectory Prediction Heuristics via LLM-driven Evolution

要約

軌道予測は、特に社会的ロボット工学や自律的な車両ナビゲーションとしての分野で、人間の行動をモデル化する上で重要なタスクです。
手作りのルールに基づいた従来のヒューリスティックは、しばしば正確さを欠いていますが、最近提案されている深い学習アプローチは、計算コスト、説明可能性の欠如、および実際の採用を制限する一般化の問題に苦しんでいます。
この論文では、Trajevoを紹介します。Trajevoは、大規模な言語モデル(LLM)を活用して軌道予測ヒューリスティックを自動的に設計するフレームワークです。
Trajevoは、進化的アルゴリズムを採用して、過去の軌跡データから予測ヒューリスティックを生成および改善します。
人口の多様性と統計フィードバックループを促進するために、クロスジェネレーションエリートサンプリングを導入し、LLMが代替予測を分析できるようにします。
私たちの評価は、TrajevoがETH-usyデータセットの以前のヒューリスティック方法を上回ることを示しており、目に見えないSDDデータセットに一般化する際に、ヒューリスティックと深い学習方法の両方を著しく上回っています。
Trajevoは、高速で説明可能な、一般化可能な軌跡予測ヒューリスティックの自動設計に向けた最初のステップを表しています。
ソースコードを公開して、https://github.com/ai4co/trajevoで将来の研究を促進します。

要約(オリジナル)

Trajectory prediction is a crucial task in modeling human behavior, especially in fields as social robotics and autonomous vehicle navigation. Traditional heuristics based on handcrafted rules often lack accuracy, while recently proposed deep learning approaches suffer from computational cost, lack of explainability, and generalization issues that limit their practical adoption. In this paper, we introduce TrajEvo, a framework that leverages Large Language Models (LLMs) to automatically design trajectory prediction heuristics. TrajEvo employs an evolutionary algorithm to generate and refine prediction heuristics from past trajectory data. We introduce a Cross-Generation Elite Sampling to promote population diversity and a Statistics Feedback Loop allowing the LLM to analyze alternative predictions. Our evaluations show TrajEvo outperforms previous heuristic methods on the ETH-UCY datasets, and remarkably outperforms both heuristics and deep learning methods when generalizing to the unseen SDD dataset. TrajEvo represents a first step toward automated design of fast, explainable, and generalizable trajectory prediction heuristics. We make our source code publicly available to foster future research at https://github.com/ai4co/trajevo.

arxiv情報

著者 Zhikai Zhao,Chuanbo Hua,Federico Berto,Kanghoon Lee,Zihan Ma,Jiachen Li,Jinkyoo Park
発行日 2025-05-07 14:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, cs.RO | TrajEvo: Designing Trajectory Prediction Heuristics via LLM-driven Evolution はコメントを受け付けていません

Model-Based AI planning and Execution Systems for Robotics

要約

モデルベースの計画および実行システムは、多くの基本的なスキルを自動的に組み合わせることで多様なタスクを実行できる柔軟な自律ロボットを構築するための原則的なアプローチを提供します。
このアイデアは、現代のロボット工学とほぼ同じくらい古いです。
しかし、多様な汎用推論アーキテクチャが提案されていますが、現代のロボットプラットフォームと統合された汎用システムは、影響力のあるロスプランシステムから始まり、最近になっています。
それ以来、ロボットタスクレベルの制御用のモデルベースのシステムが増えています。
この論文では、既存のシステムに対処しようとする多様な設計の選択と問題、これまで提案されているさまざまなソリューションを検討し、将来の開発の道を示唆しています。

要約(オリジナル)

Model-based planning and execution systems offer a principled approach to building flexible autonomous robots that can perform diverse tasks by automatically combining a host of basic skills. This idea is almost as old as modern robotics. Yet, while diverse general-purpose reasoning architectures have been proposed since, general-purpose systems that are integrated with modern robotic platforms have emerged only recently, starting with the influential ROSPlan system. Since then, a growing number of model-based systems for robot task-level control have emerged. In this paper, we consider the diverse design choices and issues existing systems attempt to address, the different solutions proposed so far, and suggest avenues for future development.

arxiv情報

著者 Or Wertheim,Ronen I. Brafman
発行日 2025-05-07 15:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Model-Based AI planning and Execution Systems for Robotics はコメントを受け付けていません

LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty

要約

私たちは、事前訓練を受けたモデルからのトレーニングサンプルの影響を排除する新しいマシンの未学習(MU)方法であるLotusを提示します。
Lotusは、モデルの予測確率を情報理論的にバインドし、データの記憶に起因する自信過剰を緩和します。
5つのパブリックデータセットにわたる8つのベースラインに対して、トランスとResNet18モデルのLotusを評価します。
確立されたMUベンチマークを超えて、再トレーニングが非現実的で現実世界の条件をシミュレートする大規模なデータセットであるImagENET1Kでの未学習を評価します。
さらに、現実世界の条件下で評価を可能にするために、小説の再訓練なしのJensen-Shannon Divergence(RF-JSD)メトリックを紹介します。
実験結果は、ロータスが効率と有効性の両方の観点から最先端の方法を上回ることを示しています。
コード:https://github.com/cspartalis/lotus。

要約(オリジナル)

We present LoTUS, a novel Machine Unlearning (MU) method that eliminates the influence of training samples from pre-trained models, avoiding retraining from scratch. LoTUS smooths the prediction probabilities of the model up to an information-theoretic bound, mitigating its over-confidence stemming from data memorization. We evaluate LoTUS on Transformer and ResNet18 models against eight baselines across five public datasets. Beyond established MU benchmarks, we evaluate unlearning on ImageNet1k, a large-scale dataset, where retraining is impractical, simulating real-world conditions. Moreover, we introduce the novel Retrain-Free Jensen-Shannon Divergence (RF-JSD) metric to enable evaluation under real-world conditions. The experimental results show that LoTUS outperforms state-of-the-art methods in terms of both efficiency and effectiveness. Code: https://github.com/cspartalis/LoTUS.

arxiv情報

著者 Christoforos N. Spartalis,Theodoros Semertzidis,Efstratios Gavves,Petros Daras
発行日 2025-05-07 15:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | LoTUS: Large-Scale Machine Unlearning with a Taste of Uncertainty はコメントを受け付けていません

On some improvements to Unbounded Minimax

要約

このペーパーでは、未結合のベストファーストミニバックスアルゴリズムの以前に未検証の4つの変更の最初の実験的評価を紹介します。
このアルゴリズムは、現在の部分的なゲームツリーに基づいて、最も有望なアクションシーケンスを繰り返し拡大することにより、ゲームツリーを調査します。
最初に、再配置テーブルの使用を評価します。このテーブルは、複製状態を統合することにより、ゲームツリーを指向性の非環式グラフに変換します。
第二に、Korf&Chickeringの元のアルゴリズムをCohen-Solalによって提案されたバリアントと比較します。これは、バックプロパゲーション戦略が異なります。安定した値が発生したときに停止する代わりに、値をルートまで更新します。
この変更により、値のつながりや転置テーブルが関係すると、パフォーマンスがわずかに向上します。
第三に、正確な端子評価関数を学習したヒューリスティック関数に置き換えることを評価します。
正確な評価がコストがかかる場合は有益ですが、この変更は安価な設定でのパフォーマンスを低下させます。
最後に、解決された勝利状態を優先し、解決された敗北状態を回避する完了手法の影響を調べます。
この手法もパフォーマンスを向上させます。
全体として、我々の調査結果は、ターゲットを絞った変更が、固定されていない最高の最終的なミニマックスの効率をどのように高めることができるかを強調しています。

要約(オリジナル)

This paper presents the first experimental evaluation of four previously untested modifications of Unbounded Best-First Minimax algorithm. This algorithm explores the game tree by iteratively expanding the most promising sequences of actions based on the current partial game tree. We first evaluate the use of transposition tables, which convert the game tree into a directed acyclic graph by merging duplicate states. Second, we compare the original algorithm by Korf & Chickering with the variant proposed by Cohen-Solal, which differs in its backpropagation strategy: instead of stopping when a stable value is encountered, it updates values up to the root. This change slightly improves performance when value ties or transposition tables are involved. Third, we assess replacing the exact terminal evaluation function with the learned heuristic function. While beneficial when exact evaluations are costly, this modification reduces performance in inexpensive settings. Finally, we examine the impact of the completion technique that prioritizes resolved winning states and avoids resolved losing states. This technique also improves performance. Overall, our findings highlight how targeted modifications can enhance the efficiency of Unbounded Best-First Minimax.

arxiv情報

著者 Quentin Cohen-Solal,Tristan Cazenave
発行日 2025-05-07 15:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | On some improvements to Unbounded Minimax はコメントを受け付けていません

Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving

要約

一見自明のタスクとして、問題解決は科学と工学の重要な要素でした。
ただし、問題解決自体の一般的な具体的な定式化は欠落しています。
AIベースの問題解決エージェントの最近の開発により、プロセスレベルの検証可能性の需要は急速に増加しているが、露出度が低い。
これらのギャップを埋めるために、決定論的なマルコフ決定プロセスとしての問題解決の原則的な定式化を提示します。
新しいフレームワーク、FPS(正式な問題解決)。これは、既存のFTP(正式な定理証明)環境を利用して、プロセス検証の問題解決を実行します。
およびD-FPS(演ductive的なFPS)、解決のデカップリング、およびより良い人間の整列のための検証に応答します。
フレームワークの表現力、健全性、完全性が証明されています。
問題解決に3つのベンチマークを構築します。Math500ベンチマークのサブセットの形式化であるFormalMath500。
MINIF2Fソルビングおよびパトナムベンチソービング、FTPベンチマークの適応MINIF2FおよびPUTNAMBENCH。
忠実で解釈可能な、人間に合った評価のために、正式な検証による回答の正確性を判断するための象徴的なアプローチであるRPE(制限された命題の等価性)を提案します。
4つの一般的なFTPモデルと2つのプロンプトメソッドをベースラインとして評価し、Minif2F解決の27.47%、Putnambench-Solvingの0.31%をFormalMath500の最大23.77%、27.47%で解きます。

要約(オリジナル)

As a seemingly self-explanatory task, problem-solving has been a significant component of science and engineering. However, a general yet concrete formulation of problem-solving itself is missing. With the recent development of AI-based problem-solving agents, the demand for process-level verifiability is rapidly increasing yet underexplored. To fill these gaps, we present a principled formulation of problem-solving as a deterministic Markov decision process; a novel framework, FPS (Formal Problem-Solving), which utilizes existing FTP (formal theorem proving) environments to perform process-verified problem-solving; and D-FPS (Deductive FPS), decoupling solving and answer verification for better human-alignment. The expressiveness, soundness and completeness of the frameworks are proven. We construct three benchmarks on problem-solving: FormalMath500, a formalization of a subset of the MATH500 benchmark; MiniF2F-Solving and PutnamBench-Solving, adaptations of FTP benchmarks MiniF2F and PutnamBench. For faithful, interpretable, and human-aligned evaluation, we propose RPE (Restricted Propositional Equivalence), a symbolic approach to determine the correctness of answers by formal verification. We evaluate four prevalent FTP models and two prompting methods as baselines, solving at most 23.77% of FormalMath500, 27.47% of MiniF2F-Solving, and 0.31% of PutnamBench-Solving.

arxiv情報

著者 Qi Liu,Xinhao Zheng,Renqiu Xia,Xingzhi Qi,Qinxiang Cao,Junchi Yan
発行日 2025-05-07 16:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LO | Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving はコメントを受け付けていません

Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review

要約

生成言語モデリングは、ChatGptやGoogle Geminiなどのサービスの出現により人気が急増しています。
これらのモデルは、生産性とコミュニケーションにおける変革の可能性を実証していますが、圧倒的に英語のような高リソース言語に対応しています。
これは、自然言語処理(NLP)における言語的不平等に対する懸念を増幅しています。
この論文では、低リソース言語(LRL)の生成言語モデリングのデータ不足に対処するための戦略に特に焦点を当てた最初の系統的レビューを紹介します。
54の研究から引き出して、生成タスク全体で、単一言語のデータ増強、逆翻訳、多言語トレーニング、迅速なエンジニアリングなど、技術的アプローチを特定、分類、評価します。
また、アーキテクチャの選択、言語家族の表現、評価方法の傾向も分析します。
私たちの調査結果は、トランスベースのモデルへの強い依存、LRLの小さなサブセットへの集中、および研究全体で一貫した評価の欠如を強調しています。
これらの方法をより広い範囲のLRLに拡張し、公平な生成言語システムを構築する際の公開課題の概要を説明するための推奨事項で結論付けています。
最終的に、このレビューは、研究者と開発者が過小評価された言語のための包括的なAIツールを構築することをサポートすることを目的としています。これは、LRLスピーカーに力を与えるための必要なステップ、および大規模な言語技術によってますます形作られる世界の言語の多様性を維持するための必要なステップです。

要約(オリジナル)

Generative language modelling has surged in popularity with the emergence of services such as ChatGPT and Google Gemini. While these models have demonstrated transformative potential in productivity and communication, they overwhelmingly cater to high-resource languages like English. This has amplified concerns over linguistic inequality in natural language processing (NLP). This paper presents the first systematic review focused specifically on strategies to address data scarcity in generative language modelling for low-resource languages (LRL). Drawing from 54 studies, we identify, categorise and evaluate technical approaches, including monolingual data augmentation, back-translation, multilingual training, and prompt engineering, across generative tasks. We also analyse trends in architecture choices, language family representation, and evaluation methods. Our findings highlight a strong reliance on transformer-based models, a concentration on a small subset of LRLs, and a lack of consistent evaluation across studies. We conclude with recommendations for extending these methods to a wider range of LRLs and outline open challenges in building equitable generative language systems. Ultimately, this review aims to support researchers and developers in building inclusive AI tools for underrepresented languages, a necessary step toward empowering LRL speakers and the preservation of linguistic diversity in a world increasingly shaped by large-scale language technologies.

arxiv情報

著者 Josh McGiff,Nikola S. Nikolov
発行日 2025-05-07 16:04:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review はコメントを受け付けていません