Real-Time Initialization of Unknown Anchors for UWB-aided Navigation

要約

このペーパーでは、UWB支援ナビゲーションシステムの未知の超帯域(UWB)アンカーのリアルタイム初期化のフレームワークを紹介します。
この方法は、UWBモジュールが補足センサーとして機能するローカリゼーションソリューション用に設計されています。
私たちのアプローチにより、操作中に以前は未知のアンカーの自動検出とキャリブレーションが可能になり、手動セットアップが必要になります。
精度(PDOP)推定のオンライン位置希釈、軽量の外れ値検出方法、および非線形最適化のための適応堅牢なカーネルを組み合わせることにより、このアプローチは、最先端と比較して、実際のアプリケーションに対する堅牢性と適合性を大幅に向上させます。
特に、初期化の決定をトリガーするメトリックは、初期線形または非線形の初期化の推測に基づいて、一般的なものよりも保守的であることを示します。
これにより、初期化のジオメトリを改善し、その後初期化エラーが低下します。
2つの異なるモバイルロボットで提案されているアプローチを示します。自律型フォークリフトと、UWBが介した視覚型慣習(VIO)フレームワークを備えたクアッドコプターです。
結果は、堅牢な初期化と低位置決めエラーを備えた提案方法の有効性を強調しています。
ROSラッパーを含むC ++ライブラリにコードをオープンソースします。

要約(オリジナル)

This paper presents a framework for the real-time initialization of unknown Ultra-Wideband (UWB) anchors in UWB-aided navigation systems. The method is designed for localization solutions where UWB modules act as supplementary sensors. Our approach enables the automatic detection and calibration of previously unknown anchors during operation, removing the need for manual setup. By combining an online Positional Dilution of Precision (PDOP) estimation, a lightweight outlier detection method, and an adaptive robust kernel for non-linear optimization, our approach significantly improves robustness and suitability for real-world applications compared to state-of-the-art. In particular, we show that our metric which triggers an initialization decision is more conservative than current ones commonly based on initial linear or non-linear initialization guesses. This allows for better initialization geometry and subsequently lower initialization errors. We demonstrate the proposed approach on two different mobile robots: an autonomous forklift and a quadcopter equipped with a UWB-aided Visual-Inertial Odometry (VIO) framework. The results highlight the effectiveness of the proposed method with robust initialization and low positioning error. We open-source our code in a C++ library including a ROS wrapper.

arxiv情報

著者 Giulio Delama,Igor Borowski,Roland Jung,Stephan Weiss
発行日 2025-06-18 14:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Real-Time Initialization of Unknown Anchors for UWB-aided Navigation はコメントを受け付けていません

Aerial Grasping via Maximizing Delta-Arm Workspace Utilization

要約

ワークスペースは、ロボットアームを備えたシステムの運用機能と可動域を制限します。
ワークスペースの使用率を最大化すると、航空操作タスクに最適なソリューションを提供する可能性があり、システムの柔軟性と運用効率が向上します。
この論文では、ワークスペースの使用率を最大化する空中把握のための新しい計画フレームワークを紹介します。
空中マニピュレーターの軌跡を最適化するための最適化問題を策定し、効率的な操作を実現するためにタスクの制約を組み込みます。
デルタアームの非凸ワークスペースを最適化制約に組み込むという課題に対処するために、多層パーセプトロン(MLP)を活用して、位置ポイントを実現可能性の確率にマッピングします。Furthermoreは、リバーシブル残留ネットワーク(Revnet)を使用して、Delta Armを使用して、Eltaの等級モデルの複雑な動態を近似します。
シミュレーションと現実世界の実験の方法を検証して、それらの有効性を実証します。

要約(オリジナル)

The workspace limits the operational capabilities and range of motion for the systems with robotic arms. Maximizing workspace utilization has the potential to provide more optimal solutions for aerial manipulation tasks, increasing the system’s flexibility and operational efficiency. In this paper, we introduce a novel planning framework for aerial grasping that maximizes workspace utilization. We formulate an optimization problem to optimize the aerial manipulator’s trajectory, incorporating task constraints to achieve efficient manipulation. To address the challenge of incorporating the delta arm’s non-convex workspace into optimization constraints, we leverage a Multilayer Perceptron (MLP) to map position points to feasibility probabilities.Furthermore, we employ Reversible Residual Networks (RevNet) to approximate the complex forward kinematics of the delta arm, utilizing efficient model gradients to eliminate workspace constraints. We validate our methods in simulations and real-world experiments to demonstrate their effectiveness.

arxiv情報

著者 Haoran Chen,Weiliang Deng,Biyu Ye,Yifan Xiong,Ximin Lyu
発行日 2025-06-18 15:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Aerial Grasping via Maximizing Delta-Arm Workspace Utilization はコメントを受け付けていません

An Advanced Framework for Ultra-Realistic Simulation and Digital Twinning for Autonomous Vehicles

要約

シミュレーションは、自動運転車の開発における基本的なツールであり、現実世界の試験に関連する物流と安全の課題なしに厳密なテストを可能にします。
自動運転車技術が進化し、公共の安全の要求が増加するにつれて、高度で現実的なシミュレーションフレームワークが重要です。
現在のテストパラダイムは、CarlaやIvressなどの汎用と特殊なシミュレータの組み合わせを使用して、忠実度の高い結果を達成しています。
ただし、これらのツールは、プラットフォーム、ハードウェア、ソフトウェアの要件が異なるため、互換性と互換性があることがよくあり、それらの効果を組み合わせて激しく妨げています。
このペーパーでは、これらの課題に対処するために、超現実的なシミュレーションとデジタルツインニングの高度なフレームワークであるBlueiceを紹介します。
Blueiceの革新的なアーキテクチャにより、コンピューティングプラットフォーム、ハードウェア、およびソフトウェアの依存関係を切り離すことができ、研究者に多様な忠実度のニーズを満たすためのカスタマイズ可能なテスト環境を提供します。
主な機能には、さまざまなシステム間の互換性を確保するためのコンテナ化、さまざまなシミュレーションツールのシームレスな統合のための統一された通信ブリッジ、シミュレータ間の入力と出力の同期オーケストレーションが含まれます。
このフレームワークは、自動運転車テストのための洗練されたデジタルツインの開発を促進し、シミュレーションの精度と柔軟性の新しい標準を設定します。
このペーパーでは、デラウェア大学でのICAT屋内テストベッドとスターキャンパスの屋外テストベッドという2つの異なるケーススタディでブルーイスの適用をさらに調査します。
これらのケーススタディは、自律的な車両テストのために洗練されたデジタル双子を作成するブルーイスの能力を示し、将来の自律運転技術の標準化されたテストベッドとしての可能性を強調しています。

要約(オリジナル)

Simulation is a fundamental tool in developing autonomous vehicles, enabling rigorous testing without the logistical and safety challenges associated with real-world trials. As autonomous vehicle technologies evolve and public safety demands increase, advanced, realistic simulation frameworks are critical. Current testing paradigms employ a mix of general-purpose and specialized simulators, such as CARLA and IVRESS, to achieve high-fidelity results. However, these tools often struggle with compatibility due to differing platform, hardware, and software requirements, severely hampering their combined effectiveness. This paper introduces BlueICE, an advanced framework for ultra-realistic simulation and digital twinning, to address these challenges. BlueICE’s innovative architecture allows for the decoupling of computing platforms, hardware, and software dependencies while offering researchers customizable testing environments to meet diverse fidelity needs. Key features include containerization to ensure compatibility across different systems, a unified communication bridge for seamless integration of various simulation tools, and synchronized orchestration of input and output across simulators. This framework facilitates the development of sophisticated digital twins for autonomous vehicle testing and sets a new standard in simulation accuracy and flexibility. The paper further explores the application of BlueICE in two distinct case studies: the ICAT indoor testbed and the STAR campus outdoor testbed at the University of Delaware. These case studies demonstrate BlueICE’s capability to create sophisticated digital twins for autonomous vehicle testing and underline its potential as a standardized testbed for future autonomous driving technologies.

arxiv情報

著者 Yuankai He,Hanlin Chen,Weisong Shi
発行日 2025-06-18 15:41:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, G.3 | An Advanced Framework for Ultra-Realistic Simulation and Digital Twinning for Autonomous Vehicles はコメントを受け付けていません

GRIM: Task-Oriented Grasping with Conditioning on Generative Examples

要約

タスク指向の把握(TOG)は重要な課題を提示し、タスクセマンティクス、オブジェクトアフォーダンス、および特定のタスクのためにオブジェクトを把握する方法を決定する機能的制約を微妙に理解する必要があります。
これらの課題に対処するために、タスク指向の把握のための新しいトレーニングフリーフレームワークであるGrim(反復マッチングを介して再調整を把握)を紹介します。
当初、幾何学的なキューと主成分分析(PCA)に還元されたDINO機能の組み合わせを使用して、粗いアライメント戦略が開発されました。
その後、検索されたメモリインスタンスに関連付けられた完全な把握ポーズは、アライメントされたシーンオブジェクトに転送され、シーンオブジェクト用に生成されたタスクに依存しない幾何学的に安定した握りのセットに対してさらに洗練され、タスクの互換性が優先されます。
既存の学習ベースの方法とは対照的に、Grimは強力な一般化能力を実証し、少数の条件付けの例でのみ堅牢なパフォーマンスを達成します。

要約(オリジナル)

Task-Oriented Grasping (TOG) presents a significant challenge, requiring a nuanced understanding of task semantics, object affordances, and the functional constraints dictating how an object should be grasped for a specific task. To address these challenges, we introduce GRIM (Grasp Re-alignment via Iterative Matching), a novel training-free framework for task-oriented grasping. Initially, a coarse alignment strategy is developed using a combination of geometric cues and principal component analysis (PCA)-reduced DINO features for similarity scoring. Subsequently, the full grasp pose associated with the retrieved memory instance is transferred to the aligned scene object and further refined against a set of task-agnostic, geometrically stable grasps generated for the scene object, prioritizing task compatibility. In contrast to existing learning-based methods, GRIM demonstrates strong generalization capabilities, achieving robust performance with only a small number of conditioning examples.

arxiv情報

著者 Shailesh,Alok Raj,Nayan Kumar,Priya Shukla,Andrew Melnik,Micheal Beetz,Gora Chand Nandi
発行日 2025-06-18 16:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | GRIM: Task-Oriented Grasping with Conditioning on Generative Examples はコメントを受け付けていません

Vision in Action: Learning Active Perception from Human Demonstrations

要約

双方向のロボット操作のためのアクティブな知覚システムであるアクション(VIA)を提示します。
介して、タスク関連のアクティブな知覚戦略(たとえば、検索、追跡、焦点の焦点)を人間のデモンストレーションから直接学習します。
ハードウェア側では、viaはシンプルでありながら効果的な6-dofロボットネックを採用して、柔軟で人間のような頭の動きを可能にします。
人間の積極的な知覚戦略をキャプチャするために、ロボットと人間のオペレーターの間に共有された観測スペースを作成するVRベースのテレオ操作インターフェイスを設計します。
ロボットの物理的な動きのレイテンシによって引き起こされるVRモーション酔いを軽減するために、インターフェイスは中間の3Dシーン表現を使用し、ロボットの最新の観察でシーンを非同期に更新しながら、演算子側でのリアルタイムビューのレンダリングを可能にします。
一緒に、これらの設計要素は、視覚的閉塞を含む3つの複雑な多段階の双方向操作タスクの堅牢な視覚運動ポリシーの学習を可能にし、ベースラインシステムを大幅に上回ることができます。

要約(オリジナル)

We present Vision in Action (ViA), an active perception system for bimanual robot manipulation. ViA learns task-relevant active perceptual strategies (e.g., searching, tracking, and focusing) directly from human demonstrations. On the hardware side, ViA employs a simple yet effective 6-DoF robotic neck to enable flexible, human-like head movements. To capture human active perception strategies, we design a VR-based teleoperation interface that creates a shared observation space between the robot and the human operator. To mitigate VR motion sickness caused by latency in the robot’s physical movements, the interface uses an intermediate 3D scene representation, enabling real-time view rendering on the operator side while asynchronously updating the scene with the robot’s latest observations. Together, these design elements enable the learning of robust visuomotor policies for three complex, multi-stage bimanual manipulation tasks involving visual occlusions, significantly outperforming baseline systems.

arxiv情報

著者 Haoyu Xiong,Xiaomeng Xu,Jimmy Wu,Yifan Hou,Jeannette Bohg,Shuran Song
発行日 2025-06-18 17:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Vision in Action: Learning Active Perception from Human Demonstrations はコメントを受け付けていません

Time-dependent density estimation using binary classifiers

要約

初期確率密度がわかっており、評価できると仮定して、サンプルパスからの多変量確率プロセスの時間依存性確率密度を学習するためのデータ駆動型の方法を提案します。
私たちの方法では、分類器を訓練するために、2つの近くの時間のインスタントでの確率的プロセスの実現を区別するために訓練する対照的な推定ベースの目的を使用して訓練された新しい時間依存性バイナリ分類器を使用します。
重要なことに、提案された方法は、時間依存性確率分布を明示的にモデル化します。つまり、目的の時間帯の中で確率密度の値を取得することが可能です。
さらに、時間依存分類器の最終的なアクティベーションの前の入力は、密度の対数の時間に関して、部分微分の2次近似です。
提案されたアプローチを適用して、確率的励起によって駆動されるシステムの時間依存性確率密度関数を近似します。
また、提案されたアプローチを使用して、特定の実現セットからランダムベクトルの新しいサンプルを合成します。
このようなアプリケーションでは、確率的散布剤を使用したトレーニングに必要なサンプルパスを生成します。
その後、自動分化は必要な勾配を効率的に提供できるため、勾配ベースのマルコフチェーンモンテカルロ法を使用して新しいサンプルが生成されます。
さらに、監視されていない外れ値検出のアプリケーションを介した時間依存性確率密度関数の明示的な近似の有用性を示します。
いくつかの数値実験を通じて、提案された方法が複雑な時間依存性、マルチモーダル、およびほぼ劣化密度を正確に再構築し、中程度に高次元の問題に効果的にスケールを正確に再構築し、実際のデータ間のまれなイベントを確実に検出することを示します。

要約(オリジナル)

We propose a data-driven method to learn the time-dependent probability density of a multivariate stochastic process from sample paths, assuming that the initial probability density is known and can be evaluated. Our method uses a novel time-dependent binary classifier trained using a contrastive estimation-based objective that trains the classifier to discriminate between realizations of the stochastic process at two nearby time instants. Significantly, the proposed method explicitly models the time-dependent probability distribution, which means that it is possible to obtain the value of the probability density within the time horizon of interest. Additionally, the input before the final activation in the time-dependent classifier is a second-order approximation to the partial derivative, with respect to time, of the logarithm of the density. We apply the proposed approach to approximate the time-dependent probability density functions for systems driven by stochastic excitations. We also use the proposed approach to synthesize new samples of a random vector from a given set of its realizations. In such applications, we generate sample paths necessary for training using stochastic interpolants. Subsequently, new samples are generated using gradient-based Markov chain Monte Carlo methods because automatic differentiation can efficiently provide the necessary gradient. Further, we demonstrate the utility of an explicit approximation to the time-dependent probability density function through applications in unsupervised outlier detection. Through several numerical experiments, we show that the proposed method accurately reconstructs complex time-dependent, multi-modal, and near-degenerate densities, scales effectively to moderately high-dimensional problems, and reliably detects rare events among real-world data.

arxiv情報

著者 Agnimitra Dasgupta,Javier Murgoitio-Esandi,Ali Fardisi,Assad A Oberai
発行日 2025-06-18 14:43:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Time-dependent density estimation using binary classifiers はコメントを受け付けていません

Insights on Adversarial Attacks for Tabular Machine Learning via a Systematic Literature Review

要約

機械学習における敵対的な攻撃は、コンピュータービジョンやNLPなどの分野で広範囲にレビューされていますが、表形式データに関する研究は散在したままです。
このペーパーでは、表形式の機械学習モデルをターゲットにした敵対的な攻撃に焦点を当てた最初の体系的な文献レビューを提供します。
重要なトレンドを強調し、攻撃戦略を分類し、実際の適用性に関する実用的な考慮事項にどのように対処するかを分析します。
さらに、現在の課題の概要と研究の質問を開きます。
明確で構造化された概要を提供することにより、このレビューは、表形式の機械学習における敵対的な脆弱性を理解し、対処するための将来の努力を導くことを目的としています。

要約(オリジナル)

Adversarial attacks in machine learning have been extensively reviewed in areas like computer vision and NLP, but research on tabular data remains scattered. This paper provides the first systematic literature review focused on adversarial attacks targeting tabular machine learning models. We highlight key trends, categorize attack strategies and analyze how they address practical considerations for real-world applicability. Additionally, we outline current challenges and open research questions. By offering a clear and structured overview, this review aims to guide future efforts in understanding and addressing adversarial vulnerabilities in tabular machine learning.

arxiv情報

著者 Salijona Dyrmishi,Mohamed Djilani,Thibault Simonetto,Salah Ghamizi,Maxime Cordy
発行日 2025-06-18 14:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Insights on Adversarial Attacks for Tabular Machine Learning via a Systematic Literature Review はコメントを受け付けていません

Contributions to Representation Learning with Graph Autoencoders and Applications to Music Recommendation

要約

グラフオートエンコーダー(GAE)および変異グラフ自動エンコーダー(VGA)は、監視されていないノード埋め込み方法の2つの強力なグループとして出現し、リンク予測やコミュニティ検出などのグラフベースの機械学習問題にさまざまなアプリケーションを使用します。
それにもかかわらず、この博士号の初めに
プロジェクト、GAE、およびVGAEモデルも重要な制限に苦しんでおり、業界で採用されるのを防ぎました。
この論文では、グラフ表現を含む産業レベルの問題に対処するためにそれらの使用を促進するという一般的な目的で、これらのモデルを改善するためのいくつかの貢献を提示します。
まず、以前のGAEおよびVGAEモデルのスケーラビリティの問題を克服するための2つの戦略を提案し、これらのモデルを何百万ものノードとエッジを持つ大きなグラフで効果的に訓練することを許可します。
これらの戦略は、グラフの縮退と確率的サブグラフデコード技術をそれぞれ活用します。
また、重力にインスパイアされたGAEおよびVGAEを導入し、産業用途で遍在する、指示されたグラフのこれらのモデルの最初の拡張を提供します。
また、動的グラフのGAEおよびVGAEモデルの拡張を検討します。
さらに、GAEおよびVGAEモデルはしばしば不必要に複雑であることが多いと主張し、線形エンコーダーを活用することでそれらを簡素化することを提案します。
最後に、グラフのコミュニティの検出を改善しながら、リンクの予測に関する良いパフォーマンスを共同で保持するために、モジュラーリティアウェアGAEおよびVGAEを導入します。
この論文の最後の部分では、音楽ストリーミングサービスディーザーから抽出されたいくつかのグラフでの方法を評価します。
グラフベースの音楽の推奨の問題に重点を置いています。
特に、私たちの方法は、ユーザーに推奨する同様の音楽アイテムのコミュニティの検出を改善し、コールドスタートの設定で同様のアーティストを効果的にランク付けできること、および文化全体の音楽ジャンル認識のモデリングを許可することを示しています。

要約(オリジナル)

Graph autoencoders (GAE) and variational graph autoencoders (VGAE) emerged as two powerful groups of unsupervised node embedding methods, with various applications to graph-based machine learning problems such as link prediction and community detection. Nonetheless, at the beginning of this Ph.D. project, GAE and VGAE models were also suffering from key limitations, preventing them from being adopted in the industry. In this thesis, we present several contributions to improve these models, with the general aim of facilitating their use to address industrial-level problems involving graph representations. Firstly, we propose two strategies to overcome the scalability issues of previous GAE and VGAE models, permitting to effectively train these models on large graphs with millions of nodes and edges. These strategies leverage graph degeneracy and stochastic subgraph decoding techniques, respectively. Besides, we introduce Gravity-Inspired GAE and VGAE, providing the first extensions of these models for directed graphs, that are ubiquitous in industrial applications. We also consider extensions of GAE and VGAE models for dynamic graphs. Furthermore, we argue that GAE and VGAE models are often unnecessarily complex, and we propose to simplify them by leveraging linear encoders. Lastly, we introduce Modularity-Aware GAE and VGAE to improve community detection on graphs, while jointly preserving good performances on link prediction. In the last part of this thesis, we evaluate our methods on several graphs extracted from the music streaming service Deezer. We put the emphasis on graph-based music recommendation problems. In particular, we show that our methods can improve the detection of communities of similar musical items to recommend to users, that they can effectively rank similar artists in a cold start setting, and that they permit modeling the music genre perception across cultures.

arxiv情報

著者 Guillaume Salha-Galvan
発行日 2025-06-18 14:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, cs.SI | Contributions to Representation Learning with Graph Autoencoders and Applications to Music Recommendation はコメントを受け付けていません

LoSAM: Local Search in Additive Noise Models with Mixed Mechanisms and General Noise for Global Causal Discovery

要約

観察データからの因果関係を推測することは、実験が費用や実行不可能である場合に重要です。
アディティブノイズモデル(ANM)は、一意の指向性環状グラフ(DAG)識別を有効にしますが、既存のサンプル効率の高いANMメソッドは、多くの場合、データ生成プロセスの制限的な仮定に依存し、実際の設定への適用性を制限します。
混合因果メカニズムと一般的な騒音分布を備えたANMでユニークなDAGを学習するためのトポロジカル順序付け方法であるAdditive Noise Models、Losamでのローカル検索を提案します。
根と葉を識別するための新しい因果基準と基準を紹介し、効率的なトップダウン学習を可能にします。
漸近の一貫性と多項式ランタイムを証明し、スケ​​ーラビリティとサンプル効率を確保します。
合成および実世界のデータでLOSAMをテストし、すべての混合メカニズム設定で最先端のパフォーマンスを実証します。

要約(オリジナル)

Inferring causal relationships from observational data is crucial when experiments are costly or infeasible. Additive noise models (ANMs) enable unique directed acyclic graph (DAG) identification, but existing sample-efficient ANM methods often rely on restrictive assumptions on the data generating process, limiting their applicability to real-world settings. We propose local search in additive noise models, LoSAM, a topological ordering method for learning a unique DAG in ANMs with mixed causal mechanisms and general noise distributions. We introduce new causal substructures and criteria for identifying roots and leaves, enabling efficient top-down learning. We prove asymptotic consistency and polynomial runtime, ensuring scalability and sample efficiency. We test LoSAM on synthetic and real-world data, demonstrating state-of-the-art performance across all mixed mechanism settings.

arxiv情報

著者 Sujai Hiremath,Promit Ghosal,Kyra Gan
発行日 2025-06-18 14:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | LoSAM: Local Search in Additive Noise Models with Mixed Mechanisms and General Noise for Global Causal Discovery はコメントを受け付けていません

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

要約

テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、ミュージシャンにこれまでにないように構成や実験のための革新的なツールを装備しています。
ただし、特定の望ましい結果を達成するために生成プロセスを制御することは重要な課題です。
テキストプロンプトのわずかな変更でさえ、同じランダムシードと組み合わされて、生成されたピースを大幅に変更できます。
この論文では、機器編集のための既存のテキストから音楽への拡散モデルの適用を調べます。
具体的には、既存のオーディオトラックの場合、基礎となるコンテンツを保存しながら、事前に処理されたテキストから音楽への拡散モデルを活用して機器を編集することを目指しています。
モデルが最初にオーディオの全体的な構造またはコンテンツに焦点を当て、次に機器情報を追加し、最終的に品質を改良するという洞察に基づいて、機器分類器を介して識別される適切に選択された中間タイムステップを選択すると、元の作品のコンテンツを保存し、望ましいティムブレを達成することとのバランスが得られることを示します。
私たちの方法では、テキストから音楽への拡散モデルの追加トレーニングは必要ありませんし、生成プロセスの速度を損なうものでもありません。

要約(オリジナル)

Breakthroughs in text-to-music generation models are transforming the creative landscape, equipping musicians with innovative tools for composition and experimentation like never before. However, controlling the generation process to achieve a specific desired outcome remains a significant challenge. Even a minor change in the text prompt, combined with the same random seed, can drastically alter the generated piece. In this paper, we explore the application of existing text-to-music diffusion models for instrument editing. Specifically, for an existing audio track, we aim to leverage a pretrained text-to-music diffusion model to edit the instrument while preserving the underlying content. Based on the insight that the model first focuses on the overall structure or content of the audio, then adds instrument information, and finally refines the quality, we show that selecting a well-chosen intermediate timestep, identified through an instrument classifier, yields a balance between preserving the original piece’s content and achieving the desired timbre. Our method does not require additional training of the text-to-music diffusion model, nor does it compromise the generation process’s speed.

arxiv情報

著者 Teysir Baoueb,Xiaoyu Bie,Xi Wang,Gaël Richard
発行日 2025-06-18 15:01:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models はコメントを受け付けていません