Drive in Corridors: Enhancing the Safety of End-to-end Autonomous Driving via Corridor Learning and Planning

要約

安全性は、自律運転システムにおける最も重要な課題の1つです。
近年、エンドツーエンドの運転は、スケーラブルな方法で車両の自律性を前進させることに大きな期待を示しています。
ただし、既存のアプローチは、明示的な動作の制約がないため、しばしば安全リスクに直面しています。
この問題に対処するために、廊下を中間表現として導入することにより、新しいパラダイムを明らかにします。
ロボット工学計画に広く採用されている廊下は、車両が横断するための時空間的な障害物のないゾーンを表しています。
多様なトラフィックシナリオで正確な回廊の予測を確保するために、データアノテーション、アーキテクチャの改良、損失の定式化など、包括的な学習パイプラインを開発します。
予測された廊下は、軌道最適化プロセスの制約としてさらに統合されています。
最適化の分化性を拡張することにより、最適化された軌道をエンドツーエンドの学習フレームワーク内でシームレスにトレーニングし、安全性と解釈可能性の両方を改善できます。
ヌスセンデータセットの実験結果は、当社のアプローチの最先端のパフォーマンスを示しており、エージェントとの衝突の66.7%の減少と縁石との46.5%の減少を示し、エンドツーエンドの運転の安全性を大幅に向上させます。
さらに、廊下を組み込むと、閉ループ評価の成功率が高くなります。
プロジェクトページ:https://zhiwei-pg.github.io/drive-in-corridors。

要約(オリジナル)

Safety remains one of the most critical challenges in autonomous driving systems. In recent years, the end-to-end driving has shown great promise in advancing vehicle autonomy in a scalable manner. However, existing approaches often face safety risks due to the lack of explicit behavior constraints. To address this issue, we uncover a new paradigm by introducing the corridor as the intermediate representation. Widely adopted in robotics planning, the corridors represents spatio-temporal obstacle-free zones for the vehicle to traverse. To ensure accurate corridor prediction in diverse traffic scenarios, we develop a comprehensive learning pipeline including data annotation, architecture refinement and loss formulation. The predicted corridor is further integrated as the constraint in a trajectory optimization process. By extending the differentiability of the optimization, we enable the optimized trajectory to be seamlessly trained within the end-to-end learning framework, improving both safety and interpretability. Experimental results on the nuScenes dataset demonstrate state-of-the-art performance of our approach, showing a 66.7% reduction in collisions with agents and a 46.5% reduction with curbs, significantly enhancing the safety of end-to-end driving. Additionally, incorporating the corridor contributes to higher success rates in closed-loop evaluations. Project page: https://zhiwei-pg.github.io/Drive-in-Corridors.

arxiv情報

著者 Zhiwei Zhang,Ruichen Yang,Ke Wu,Zijun Xu,Jingchu Liu,Lisen Mu,Zhongxue Gan,Wenchao Ding
発行日 2025-05-09 13:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Drive in Corridors: Enhancing the Safety of End-to-end Autonomous Driving via Corridor Learning and Planning はコメントを受け付けていません

Centralized Decision-Making for Platooning By Using SPaT-Driven Reference Speeds

要約

このペーパーでは、リアルタイムの車両(V2X)通信、信号フェーズ、タイミング(SPAT)データを活用することにより、燃料効率の高い都市小隊のための集中アプローチを紹介します。
非線形モデル予測制御(MPC)アルゴリズムは、小隊リーダー車両の軌跡を最適化し、非対称コスト関数を使用して燃料集約型加速を最小限に抑えます。
次の車両は、小隊制御メッセージ(PCM)および小隊啓発メッセージ(PAM)を介して伝達される動的な小隊分割ロジックによって補完されるギャップと速度ベースの制御戦略を利用します。
Carla環境から得られたシミュレーション結果は、より滑らかなトラフィックフロー、車両停止の減少、交差点のスループットの改善に加えて、最大41.2%の大幅な燃料節約を示しています。

要約(オリジナル)

This paper introduces a centralized approach for fuel-efficient urban platooning by leveraging real-time Vehicle- to-Everything (V2X) communication and Signal Phase and Timing (SPaT) data. A nonlinear Model Predictive Control (MPC) algorithm optimizes the trajectories of platoon leader vehicles, employing an asymmetric cost function to minimize fuel-intensive acceleration. Following vehicles utilize a gap- and velocity-based control strategy, complemented by dynamic platoon splitting logic communicated through Platoon Control Messages (PCM) and Platoon Awareness Messages (PAM). Simulation results obtained from the CARLA environment demonstrate substantial fuel savings of up to 41.2%, along with smoother traffic flows, fewer vehicle stops, and improved intersection throughput.

arxiv情報

著者 Melih Yazgan,Süleyman Tatar,J. Marius Zöllner
発行日 2025-05-09 14:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Centralized Decision-Making for Platooning By Using SPaT-Driven Reference Speeds はコメントを受け付けていません

Robot Learning Using Multi-Coordinate Elastic Maps

要約

操作スキルを学ぶために、ロボットはそれらのスキルの特徴を理解する必要があります。
ロボットが学習する簡単な方法は、ロボットが専門家のデモンストレーターからスキルを学ぶデモ(LFD)から学ぶことです。
スキルの主な機能は、1つの微分座標(つまり、デカルト)でキャプチャされる場合がありますが、他の座標では意味がある可能性があります。
たとえば、スキルの重要な特徴は、その形状または速度プロファイルである可能性があります。これは、デカルトの微分座標で発見するのが困難です。
この作業では、ロボットがこれらのスキルをさまざまな微分座標にエンコードすることで人間のデモンストレーションからスキルを学ぶことができる方法を提示し、各座標の重要性を決定してスキルを再現します。
また、これらの微分座標空間のスキルの統計的モデリングを組み合わせて、複数の微分座標を含む修正された形式の弾性マップを紹介します。
柔軟で速く計算できる弾性マップは、いくつかの異なるタイプの制約の組み込みと、任意の数のデモンストレーションの使用を可能にします。
さらに、変更された弾性マップ定式化に関連するいくつかのパラメーターを自動調整する方法を提案します。
いくつかのシミュレートされた実験と、UR5Eマニピュレーターアームを使用した実際の執筆タスクでアプローチを検証します。

要約(オリジナル)

To learn manipulation skills, robots need to understand the features of those skills. An easy way for robots to learn is through Learning from Demonstration (LfD), where the robot learns a skill from an expert demonstrator. While the main features of a skill might be captured in one differential coordinate (i.e., Cartesian), they could have meaning in other coordinates. For example, an important feature of a skill may be its shape or velocity profile, which are difficult to discover in Cartesian differential coordinate. In this work, we present a method which enables robots to learn skills from human demonstrations via encoding these skills into various differential coordinates, then determines the importance of each coordinate to reproduce the skill. We also introduce a modified form of Elastic Maps that includes multiple differential coordinates, combining statistical modeling of skills in these differential coordinate spaces. Elastic Maps, which are flexible and fast to compute, allow for the incorporation of several different types of constraints and the use of any number of demonstrations. Additionally, we propose methods for auto-tuning several parameters associated with the modified Elastic Map formulation. We validate our approach in several simulated experiments and a real-world writing task with a UR5e manipulator arm.

arxiv情報

著者 Brendan Hertel,Reza Azadeh
発行日 2025-05-09 14:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Robot Learning Using Multi-Coordinate Elastic Maps はコメントを受け付けていません

Parameter-Free Segmentation of Robot Movements with Cross-Correlation Using Different Similarity Metrics

要約

多くの場合、ロボットは、単一のアクションとしてであろうと、より大きく、より複雑なタスクを表す一連のアクションであろうと、原始的な動きを実行するように求められます。
これらの動きは多くの方法で学ぶことができますが、一般的な動きは教師によってロボットに提示されたデモンストレーションからです。
ただし、これらのデモンストレーションは必ずしも単純な動き自体ではなく、複雑なデモンストレーションは原始的な動きに分割またはセグメント化する必要があります。
この作業では、自己相関と信号処理からの相互相関に触発された手法を使用して、セグメンテーションへのパラメーターフリーアプローチを提示します。
相互相関では、代表的な信号をより大きな信号と相関させることにより、代表的な信号がいくつかのより大きく、より複雑な信号に見られます。
この同じアイデアは、代表的なモーションプリミティブを備えたロボットモーションとデモンストレーションのセグメント化に適用できます。
これにより、迅速かつ正確なセグメンテーションが発生し、パラメーターは取られません。
このペーパーの主な貢献の1つは、ロボットの動きに固有の機能をキャプチャできる類似性メトリックを採用することにより、相互相関プロセスの変更です。
フレームワークを検証するために、シミュレーションと実世界の両方で複雑なタスクのいくつかの実験を実施します。
また、さまざまな類似性メトリックを比較することにより、セグメンテーションフレームワークの有効性を評価します。

要約(オリジナル)

Often, robots are asked to execute primitive movements, whether as a single action or in a series of actions representing a larger, more complex task. These movements can be learned in many ways, but a common one is from demonstrations presented to the robot by a teacher. However, these demonstrations are not always simple movements themselves, and complex demonstrations must be broken down, or segmented, into primitive movements. In this work, we present a parameter-free approach to segmentation using techniques inspired by autocorrelation and cross-correlation from signal processing. In cross-correlation, a representative signal is found in some larger, more complex signal by correlating the representative signal with the larger signal. This same idea can be applied to segmenting robot motion and demonstrations, provided with a representative motion primitive. This results in a fast and accurate segmentation, which does not take any parameters. One of the main contributions of this paper is the modification of the cross-correlation process by employing similarity metrics that can capture features specific to robot movements. To validate our framework, we conduct several experiments of complex tasks both in simulation and in real-world. We also evaluate the effectiveness of our segmentation framework by comparing various similarity metrics.

arxiv情報

著者 Wendy Carvalho,Meriem Elkoudi,Brendan Hertel,Reza Azadeh
発行日 2025-05-09 14:47:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parameter-Free Segmentation of Robot Movements with Cross-Correlation Using Different Similarity Metrics はコメントを受け付けていません

KRRF: Kinodynamic Rapidly-exploring Random Forest algorithm for multi-goal motion planning

要約

運動力学的マルチゴールモーションプランニングの問題は、訪問のApriori未知のシーケンスを持つ複数のターゲット位置に軌道を見つけることです。
目的は、運動力学的運動モデルを備えたロボットの散らかった環境で計画された軌道のコストを最小限に抑えることです。
この問題は、2つのNPハードの問題、旅行セールスマンの問題〜(TSP)と運動力学的運動計画の問題を組み合わせているため、まだ効率的に解決されていません。
Kinodynamicの急速に抽出されたランダムフォレスト〜(KRRF)と呼ばれる新しい近似方法を提案して、ロボットの動きの制約を満たす衝突のないマルチゴール軌道を見つけます。
KRRFは同時に、他のすべてのターゲットに向かってすべてのターゲットからキノダイナミックな木を栽培し、他の木をヒューリスティックとして使用して成長を促進します。
ターゲットからターゲットへの軌道が計画されると、そのコストを使用してTSPを解き、ターゲットのシーケンスを見つけます。
TSPシーケンスのターゲットからターゲットへの軌跡に沿ってRRTベースのプランナーを導くことにより、最終的なマルチゴール軌道を満足させる運動力学的制約が計画されています。
既存のアプローチと比較して、KRRFは、より短いターゲットからターゲットへの軌道と最終的なマルチゴール軌道を提供し、ほとんどのテストケースで計算的に速くなりながら、$ 1.1〜2倍低いコストが低くなります。
この方法は、オープンソースライブラリとして公開されます。

要約(オリジナル)

The problem of kinodynamic multi-goal motion planning is to find a trajectory over multiple target locations with an apriori unknown sequence of visits. The objective is to minimize the cost of the trajectory planned in a cluttered environment for a robot with a kinodynamic motion model. This problem has yet to be efficiently solved as it combines two NP-hard problems, the Traveling Salesman Problem~(TSP) and the kinodynamic motion planning problem. We propose a novel approximate method called Kinodynamic Rapidly-exploring Random Forest~(KRRF) to find a collision-free multi-goal trajectory that satisfies the motion constraints of the robot. KRRF simultaneously grows kinodynamic trees from all targets towards all other targets while using the other trees as a heuristic to boost the growth. Once the target-to-target trajectories are planned, their cost is used to solve the TSP to find the sequence of targets. The final multi-goal trajectory satisfying kinodynamic constraints is planned by guiding the RRT-based planner along the target-to-target trajectories in the TSP sequence. Compared with existing approaches, KRRF provides shorter target-to-target trajectories and final multi-goal trajectories with $1.1-2$ times lower costs while being computationally faster in most test cases. The method will be published as an open-source library.

arxiv情報

著者 Petr Ježek,Michal Minařík,Vojtěch Vonásek,Robert Pěnička
発行日 2025-05-09 15:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | KRRF: Kinodynamic Rapidly-exploring Random Forest algorithm for multi-goal motion planning はコメントを受け付けていません

ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning

要約

複雑なマルチルーム屋内環境向けに設計された効率的なレイアウトアウェアゼロショットオブジェクトナビゲーション(ZSON)アプローチであるEla-Zsonを紹介します。
レイアウト情報と詳細なシーン表現メモリを備えたローカルな命令アプローチを備えたグローバルトポロジーマップを階層的にレバレルすることを計画することにより、ELA-ZSONは効率的かつ効果的なナビゲーションの両方を達成します。
このプロセスは、LLMを搭載したエージェントによって管理され、人間の相互作用、複雑な報酬、または費用のかかるトレーニングを必要とせずに、シームレスな効果的な計画とナビゲーションを確保します。
MP3Dベンチマークでの実験結果は、パス長(SPL)で重み付けされた85 \%オブジェクトナビゲーションの成功率(SR)と79 \%の成功率を達成します(SRの40 \%の改善とSPLの60 \%改善を超えて、exSistingメソッドと比較して)。
さらに、仮想エージェントと実際のロボット展開を介したアプローチの堅牢性を検証し、実際のシナリオでその機能を紹介します。
詳細については、https://anonymous.4open.science/r/ela-zson-c67e/を参照してください。

要約(オリジナル)

We introduce ELA-ZSON, an efficient layout-aware zero-shot object navigation (ZSON) approach designed for complex multi-room indoor environments. By planning hierarchically leveraging a global topologigal map with layout information and local imperative approach with detailed scene representation memory, ELA-ZSON achieves both efficient and effective navigation. The process is managed by an LLM-powered agent, ensuring seamless effective planning and navigation, without the need for human interaction, complex rewards, or costly training. Our experimental results on the MP3D benchmark achieves 85\% object navigation success rate (SR) and 79\% success rate weighted by path length (SPL) (over 40\% point improvement in SR and 60\% improvement in SPL compared to exsisting methods). Furthermore, we validate the robustness of our approach through virtual agent and real-world robotic deployment, showcasing its capability in practical scenarios. See https://anonymous.4open.science/r/ELA-ZSON-C67E/ for details.

arxiv情報

著者 Jiawei Hou,Yuting Xiao,Xiangyang Xue,Taiping Zeng
発行日 2025-05-09 15:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ELA-ZSON: Efficient Layout-Aware Zero-Shot Object Navigation Agent with Hierarchical Planning はコメントを受け付けていません

Fuzzy-UCS Revisited: Self-Adaptation of Rule Representations in Michigan-Style Learning Fuzzy-Classifier Systems

要約

このペーパーでは、ミシガン式の学習ファジークラシファイアシステム(LFCSS)におけるルール表現の分類パフォーマンスに焦点を当てています。
LFCSのルールの適切な代表は、そのパフォーマンスを改善するために重要です。
ただし、従来のルール表現は、未知のデータ特性を持つ問題に対処するのに役立つことがよくあります。
この問題に対処するために、このペーパーでは、Adaptive-UCSというタイトルの自己適応ルール表現メカニズムを備えた監視されたLFC(つまり、ファジー-UCS)を提案します。
Adaptive-UCSは、ルールのメンバーシップ関数を長方形(すなわち、サクサク)または三角形(つまりファジー)の形状のいずれかとして設定する新しいルールパラメーターとしてファジーインジケーターを組み込みます。
ファジーインジケーターは進化的演算子で最適化されており、システムが最適なルール表現を検索できるようにします。
連続空間の問題で行われた広範な実験の結果は、分類精度における従来のパリパリ系系統角およびファジーヒイパートラペゾイドのルール表現を伴う他のUCSよりも適応型-UCが優れていることを示しています。
さらに、適応型-UCSは、騒々しい入力と、欠損値などの固有の不確実性を伴う現実世界の問題の場合、安定した分類パフォーマンスにつながる堅牢性を示します。

要約(オリジナル)

This paper focuses on the impact of rule representation in Michigan-style Learning Fuzzy-Classifier Systems (LFCSs) on its classification performance. A well-representation of the rules in an LFCS is crucial for improving its performance. However, conventional rule representations frequently need help addressing problems with unknown data characteristics. To address this issue, this paper proposes a supervised LFCS (i.e., Fuzzy-UCS) with a self-adaptive rule representation mechanism, entitled Adaptive-UCS. Adaptive-UCS incorporates a fuzzy indicator as a new rule parameter that sets the membership function of a rule as either rectangular (i.e., crisp) or triangular (i.e., fuzzy) shapes. The fuzzy indicator is optimized with evolutionary operators, allowing the system to search for an optimal rule representation. Results from extensive experiments conducted on continuous space problems demonstrate that Adaptive-UCS outperforms other UCSs with conventional crisp-hyperrectangular and fuzzy-hypertrapezoidal rule representations in classification accuracy. Additionally, Adaptive-UCS exhibits robustness in the case of noisy inputs and real-world problems with inherent uncertainty, such as missing values, leading to stable classification performance.

arxiv情報

著者 Hiroki Shiraishi,Yohei Hayamizu,Tomonori Hashiyama
発行日 2025-05-09 12:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Fuzzy-UCS Revisited: Self-Adaptation of Rule Representations in Michigan-Style Learning Fuzzy-Classifier Systems はコメントを受け付けていません

Sparsification Under Siege: Defending Against Poisoning Attacks in Communication-Efficient Federated Learning

要約

Federated Learning(FL)は、データプライバシーを維持しながら、分散クライアント全体で共同モデルトレーニングを可能にしますが、コミュニケーション効率と中毒攻撃に対する脆弱性における重要な課題に直面しています。
スパース化手法では、重要なモデルパラメーターのみを送信することで通信を緩和しますが、セキュリティリスクを誤って増幅します。敵対的なクライアントは、まばらな更新を悪用して検出を回避し、モデルのパフォーマンスを低下させることができます。
標準のFL通信シナリオ向けに設計された既存の防御メカニズムは、Sparsified FL内のこれらの脆弱性に対処するのに効果がありません。
このギャップを埋めるために、スパースインデックスマスク検査とモデルの更新標識類似性分析を統合する新しいフェデレーション学習フレームワークであるフレアを提案し、Sparsified FLの中毒攻撃を検出および軽減します。
複数のデータセットと敵対的なシナリオにわたる広範な実験は、フレアが既存の防衛戦略を大幅に上回り、コミュニケーション効率を維持しながら中毒攻撃に対してスパース化されたFLを効果的に確保することを示しています。

要約(オリジナル)

Federated Learning (FL) enables collaborative model training across distributed clients while preserving data privacy, yet it faces significant challenges in communication efficiency and vulnerability to poisoning attacks. While sparsification techniques mitigate communication overhead by transmitting only critical model parameters, they inadvertently amplify security risks: adversarial clients can exploit sparse updates to evade detection and degrade model performance. Existing defense mechanisms, designed for standard FL communication scenarios, are ineffective in addressing these vulnerabilities within sparsified FL. To bridge this gap, we propose FLARE, a novel federated learning framework that integrates sparse index mask inspection and model update sign similarity analysis to detect and mitigate poisoning attacks in sparsified FL. Extensive experiments across multiple datasets and adversarial scenarios demonstrate that FLARE significantly outperforms existing defense strategies, effectively securing sparsified FL against poisoning attacks while maintaining communication efficiency.

arxiv情報

著者 Zhiyong Jin,Runhua Xu,Chao Li,Yizhong Liu,Jianxin Li
発行日 2025-05-09 13:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | Sparsification Under Siege: Defending Against Poisoning Attacks in Communication-Efficient Federated Learning はコメントを受け付けていません

Speed-accuracy relations for diffusion models: Wisdom from nonequilibrium thermodynamics and optimal transport

要約

拡散モデルと呼ばれる生成モデルと、確率的熱力学と呼ばれるFokker-Planck方程式の非平衡熱力学との関係について説明します。
確率的熱力学からの手法を使用して、データ生成の精度をエントロピー生産速度に関連付ける不平等である拡散モデルの速度acccuuracy関係を導き出します。
この関係は、非保守的な力の非存在下での拡散ダイナミクスの速度として解釈できます。
確率的熱力学的観点から、我々の結果は、拡散モデルでデータを生成する最善の方法についての定量的な洞察を提供します。
最適な学習プロトコルは、最適な輸送理論における2ワセルタイン距離の空間の測地線によって導入されます。
さまざまなノイズスケジュールと異なるデータを持つ拡散モデルの速度acccuuracy関係の妥当性を数値的に説明します。
最適な学習プロトコルと最適でない学習プロトコルについて、結果について数値的に説明します。
また、実際の画像データセットからのデータ生成への結果の適用性も示します。

要約(オリジナル)

We discuss a connection between a generative model, called the diffusion model, and nonequilibrium thermodynamics for the Fokker-Planck equation, called stochastic thermodynamics. Using techniques from stochastic thermodynamics, we derive the speed-accuracy relations for diffusion models, which are inequalities that relate the accuracy of data generation to the entropy production rate. This relation can be interpreted as the speed of the diffusion dynamics in the absence of the non-conservative force. From a stochastic thermodynamic perspective, our results provide quantitative insight into how best to generate data in diffusion models. The optimal learning protocol is introduced by the geodesic of space of the 2-Wasserstein distance in optimal transport theory. We numerically illustrate the validity of the speed-accuracy relations for diffusion models with different noise schedules and different data. We numerically discuss our results for optimal and suboptimal learning protocols. We also demonstrate the applicability of our results to data generation from the real-world image datasets.

arxiv情報

著者 Kotaro Ikeda,Tomoya Uda,Daisuke Okanohara,Sosuke Ito
発行日 2025-05-09 13:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, stat.ML | Speed-accuracy relations for diffusion models: Wisdom from nonequilibrium thermodynamics and optimal transport はコメントを受け付けていません

Learning Music Audio Representations With Limited Data

要約

汎用音楽の音声表現の学習に焦点を当てたものを含む音楽の大規模な学習モデルは、多くの場合、高性能を達成するために実質的なトレーニングデータを必要とすると想定されています。
本当なら、これは、過小評価されている音楽の伝統、非人気のジャンル、パーソナライズされた音楽の作成とリスニングなど、オーディオデータや注釈が不足しているシナリオで課題をもたらすでしょう。
これらのモデルが限られたデータシナリオでどのように動作するかを理解することは、それらに取り組むための技術を開発するために重要です。
この作業では、限られたデータ学習体制の下でいくつかの音楽オーディオ表現モデルの動作を調査します。
さまざまなアーキテクチャ、トレーニングパラダイム、入力期間を備えた音楽モデルを検討し、5〜8,000分の範囲のデータコレクションでトレーニングします。
さまざまな音楽情報検索タスクで学習した表現を評価し、それらの堅牢性をノイズに分析します。
特定の条件下では、限られたデータやランダムモデルからの表現が大規模モデルのモデルからの表現でさえも機能することを示していますが、手作りの機能は、いくつかのタスクで学習したすべての表現を上回ることができます。

要約(オリジナル)

Large deep-learning models for music, including those focused on learning general-purpose music audio representations, are often assumed to require substantial training data to achieve high performance. If true, this would pose challenges in scenarios where audio data or annotations are scarce, such as for underrepresented music traditions, non-popular genres, and personalized music creation and listening. Understanding how these models behave in limited-data scenarios could be crucial for developing techniques to tackle them. In this work, we investigate the behavior of several music audio representation models under limited-data learning regimes. We consider music models with various architectures, training paradigms, and input durations, and train them on data collections ranging from 5 to 8,000 minutes long. We evaluate the learned representations on various music information retrieval tasks and analyze their robustness to noise. We show that, under certain conditions, representations from limited-data and even random models perform comparably to ones from large-dataset models, though handcrafted features outperform all learned representations in some tasks.

arxiv情報

著者 Christos Plachouras,Emmanouil Benetos,Johan Pauwels
発行日 2025-05-09 13:39:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Learning Music Audio Representations With Limited Data はコメントを受け付けていません