Equivariant non-linear maps for neural networks on homogeneous spaces

要約

このペーパーでは、均一な空間上の非線形等量ニューラルネットワーク層の新しいフレームワークを紹介します。
コーエンらの独創的な作品。
均一なスペースの等量$ g $ -cnnsは、線形設定でのそのような層の表現理論を特徴づけ、いわゆる操縦性の制約を満たすカーネルとの畳み込みによって与えられることを発見しました。
自己attentionや入力に依存するカーネルなどの非線形層の経験的成功に動機付けられ、これらの洞察を非線形設定に一般化することに着手しました。
私たちは、そのようなレイヤーが建設の普遍性を満たし、証明するために必要な一般化された操縦性の制約を導き出します。
特徴マップとグループ要素に対する等量演算子の対称的に制約された機能的依存性に獲得された洞察は、将来の等量ニューラルネットワーク層の設計を通知します。
$ g $ -cnns、暗黙的な操縦可能なカーネルネットワーク、従来の相対位置埋め込み注意ベースのトランス、およびレトランファーザーがフレームワークから導き出される方法をいくつか示します。

要約(オリジナル)

This paper presents a novel framework for non-linear equivariant neural network layers on homogeneous spaces. The seminal work of Cohen et al. on equivariant $G$-CNNs on homogeneous spaces characterized the representation theory of such layers in the linear setting, finding that they are given by convolutions with kernels satisfying so-called steerability constraints. Motivated by the empirical success of non-linear layers, such as self-attention or input dependent kernels, we set out to generalize these insights to the non-linear setting. We derive generalized steerability constraints that any such layer needs to satisfy and prove the universality of our construction. The insights gained into the symmetry-constrained functional dependence of equivariant operators on feature maps and group elements informs the design of future equivariant neural network layers. We demonstrate how several common equivariant network architectures – $G$-CNNs, implicit steerable kernel networks, conventional and relative position embedded attention based transformers, and LieTransformers – may be derived from our framework.

arxiv情報

著者 Elias Nyholm,Oscar Carlsson,Maurice Weiler,Daniel Persson
発行日 2025-04-29 17:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.RT, stat.ML | Equivariant non-linear maps for neural networks on homogeneous spaces はコメントを受け付けていません

Provably faster randomized and quantum algorithms for k-means clustering via uniform sampling

要約

$ k $ -Meansアルゴリズム(Lloydのアルゴリズム)は、ラベルのないデータをクラスタリングするために広く使用されている方法です。
$ k $ -Meansアルゴリズムの重要なボトルネックは、各反復にはデータポイントの数で時間線形が必要であり、ビッグデータアプリケーションでは高価になる可能性があることです。
これは、量子および量子に触発された古典的アルゴリズムを提案する最近の研究で改善されました。$ k $ -meansアルゴリズムをローカルに近似します。
Kerenidis、Landman、Luongo、およびPrakash、Neurips 2019;
$ Q $ -Means?、Doriguello、Luongo、Tang]を知っていますか?
この作業では、単純なランダム化されたミニバッチ$ k $ meansアルゴリズムと、古典的なアルゴリズムに触発された量子アルゴリズムについて説明します。
以前のアルゴリズムの境界を大幅に改善することが、より悪いケースの保証を証明しています。
私たちの改善は、均一なサンプリングの慎重な使用によるものです。これにより、データノルムベースのサンプリングを使用する以前のアルゴリズムには保存されていない$ k $ -meansの問題の特定の対称性が保持されます。

要約(オリジナル)

The $k$-means algorithm (Lloyd’s algorithm) is a widely used method for clustering unlabeled data. A key bottleneck of the $k$-means algorithm is that each iteration requires time linear in the number of data points, which can be expensive in big data applications. This was improved in recent works proposing quantum and quantum-inspired classical algorithms to approximate the $k$-means algorithm locally, in time depending only logarithmically on the number of data points (along with data dependent parameters) [$q$-means: A quantum algorithm for unsupervised machine learning; Kerenidis, Landman, Luongo, and Prakash, NeurIPS 2019; Do you know what $q$-means?, Doriguello, Luongo, Tang]. In this work, we describe a simple randomized mini-batch $k$-means algorithm and a quantum algorithm inspired by the classical algorithm. We prove worse-case guarantees that significantly improve upon the bounds for previous algorithms. Our improvements are due to a careful use of uniform sampling, which preserves certain symmetries of the $k$-means problem that are not preserved in previous algorithms that use data norm-based sampling.

arxiv情報

著者 Tyler Chen,Archan Ray,Akshay Seshadri,Dylan Herman,Bao Bach,Pranav Deshpande,Abhishek Som,Niraj Kumar,Marco Pistoia
発行日 2025-04-29 17:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, quant-ph | Provably faster randomized and quantum algorithms for k-means clustering via uniform sampling はコメントを受け付けていません

ACE: A Security Architecture for LLM-Integrated App Systems

要約

LLM統合アプリシステムは、ユーザークエリに答えるためにインターリーブ計画と実行フェーズを使用してシステムLLMによって呼び出されるサードパーティアプリを使用して、大規模な言語モデル(LLMS)のユーティリティを拡張します。
これらのシステムは、悪意のあるアプリが、実行中に計画や実行、可用性の内訳、またはプライバシーの妥協の完全性違反を引き起こす可能性がある新しい攻撃ベクトルを導入します。
この作業では、LLM統合アプリでの実行の整合性と実行の整合性と可用性に影響を与える新しい攻撃を特定し、悪意のあるアプリからの攻撃を緩和するために設計された最近のソリューションであるIsolategPTに対してそれらを実証します。
システム計画と実行のセキュリティ保証を提供するLLM統合アプリシステムの新しい安全なアーキテクチャであるAbstract Concrete-Execute(ACE)を提案します。
具体的には、ACEは、信頼できる情報のみを使用して抽象実行計画を最初に作成し、抽象計画をインストールされたシステムアプリを使用して具体的な計画にマッピングすることにより、計画計画を2つのフェーズに分離します。
システムによって生成された計画が、構造化された計画出力の静的分析を介してユーザー指定の安全な情報の制約を満たすことを確認します。
実行中、ACEはアプリ間のデータと能力の障壁を強制し、信頼できる抽象計画に従って実行が実施されることを保証します。
私たちのシステムは、間接的な迅速な噴射攻撃に直面した制御フローの完全性のための標準的なベンチマーク、および新しく導入された攻撃からの標準的なベンチマークである、私たちのシステムが注射科のベンチマークからの攻撃に対して安全であることを実験的に示します。
私たちのアーキテクチャは、さまざまなレベルの信頼性を持つシステム施設を含むLLMベースのシステムを硬化させるための重要な進歩を表しています。

要約(オリジナル)

LLM-integrated app systems extend the utility of Large Language Models (LLMs) with third-party apps that are invoked by a system LLM using interleaved planning and execution phases to answer user queries. These systems introduce new attack vectors where malicious apps can cause integrity violation of planning or execution, availability breakdown, or privacy compromise during execution. In this work, we identify new attacks impacting the integrity of planning, as well as the integrity and availability of execution in LLM-integrated apps, and demonstrate them against IsolateGPT, a recent solution designed to mitigate attacks from malicious apps. We propose Abstract-Concrete-Execute (ACE), a new secure architecture for LLM-integrated app systems that provides security guarantees for system planning and execution. Specifically, ACE decouples planning into two phases by first creating an abstract execution plan using only trusted information, and then mapping the abstract plan to a concrete plan using installed system apps. We verify that the plans generated by our system satisfy user-specified secure information flow constraints via static analysis on the structured plan output. During execution, ACE enforces data and capability barriers between apps, and ensures that the execution is conducted according to the trusted abstract plan. We show experimentally that our system is secure against attacks from the INJECAGENT benchmark, a standard benchmark for control flow integrity in the face of indirect prompt injection attacks, and our newly introduced attacks. Our architecture represents a significant advancement towards hardening LLM-based systems containing system facilities of varying levels of trustworthiness.

arxiv情報

著者 Evan Li,Tushin Mallick,Evan Rose,William Robertson,Alina Oprea,Cristina Nita-Rotaru
発行日 2025-04-29 17:55:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | ACE: A Security Architecture for LLM-Integrated App Systems はコメントを受け付けていません

MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation

要約

検索拡張生成(RAG)システムの自動評価は、専門家のアノテーターによって判断されるように、忠実さや関連性などのきめ細かな次元に依存しています。
メタ評価ベンチマークは、人間の判断とよく相関する自動評価者の開発をサポートしています。
ただし、既存のベンチマークは主に英語に焦点を当てたり、文化的なニュアンスをキャプチャできない翻訳データを使用しています。
ネイティブアプローチは、エンドユーザーエクスペリエンスのより良い表現を提供します。
この作業では、多言語のエンドツーエンドのメタ評価ラグベンチマーク(MEMERAG)を開発します。
私たちのベンチマークは、ネイティブ言語の質問を使用して、多様な大規模な言語モデル(LLM)を使用して回答を生成する人気のあるMiraclデータセットに基づいて構築されます。
注釈プロセスについて説明し、それが高いアノテーター間契約を達成していることを示します。
次に、人間の評価者に従って、言語間で回答を生成するLLMのパフォーマンスを分析します。
最後に、データセットをメインのユースケースに適用します。これは、多言語の自動評価者(LLM-As-a-judge)のベンチマークです。
私たちのベンチマークは、高度なプロンプト技術とLLMによって提供される改善を確実に識別できることを示しています。
データセットはhttps://github.com/amazon-science/memeragで入手できます

要約(オリジナル)

Automatic evaluation of retrieval augmented generation (RAG) systems relies on fine-grained dimensions like faithfulness and relevance, as judged by expert human annotators. Meta-evaluation benchmarks support the development of automatic evaluators that correlate well with human judgement. However, existing benchmarks predominantly focus on English or use translated data, which fails to capture cultural nuances. A native approach provides a better representation of the end user experience. In this work, we develop a Multilingual End-to-end Meta-Evaluation RAG benchmark (MEMERAG). Our benchmark builds on the popular MIRACL dataset, using native-language questions and generating responses with diverse large language models (LLMs), which are then assessed by expert annotators for faithfulness and relevance. We describe our annotation process and show that it achieves high inter-annotator agreement. We then analyse the performance of the answer-generating LLMs across languages as per the human evaluators. Finally we apply the dataset to our main use-case which is to benchmark multilingual automatic evaluators (LLM-as-a-judge). We show that our benchmark can reliably identify improvements offered by advanced prompting techniques and LLMs. Our dataset is available at https://github.com/amazon-science/MEMERAG

arxiv情報

著者 María Andrea Cruz Blandón,Jayasimha Talur,Bruno Charron,Dong Liu,Saab Mansour,Marcello Federico
発行日 2025-04-29 07:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation はコメントを受け付けていません

UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation

要約

さまざまな大規模な言語モデル(LLM)にわたって毒性を緩和するために設計された普遍的に適用可能な方法であるUnidetoxを提示します。
以前の解毒方法は通常、モデル固有であり、個々のモデルまたはモデルファミリのみに対処し、解毒の有効性と言語モデリングのパフォーマンスとのトレードオフのため、慎重なハイパーパラメーターチューニングが必要です。
対照的に、Unidetoxは、個別のモデル固有のチューニングを必要とせずに、広範囲のLLMに普遍的に適用できる解毒技術を提供します。
具体的には、コントラストデコードを使用した解毒のための斬新で効率的なデータセット蒸留技術を提案します。
このアプローチは、合成テキストデータの形で解毒表現を蒸留し、蒸留テキストで微調整することでLLMの普遍的な解毒を可能にします。
我々の実験は、GPT-2から蒸留された解毒テキストが、OPT、Falcon、およびLlama-2を含むより大きなモデルを効果的に解毒できることを示しています。
さらに、単一のハイパーパラメーター構成を異なるモデルにシームレスに適用できるため、Unidetoxは各モデルの個別のハイパーパラメーターチューニングの必要性を排除します。
さらに、解毒テキストの分析により、政治的に偏ったコンテンツの減少が明らかになり、LLMの効果的な解毒に必要な属性に関する洞察が得られます。

要約(オリジナル)

We present UniDetox, a universally applicable method designed to mitigate toxicity across various large language models (LLMs). Previous detoxification methods are typically model-specific, addressing only individual models or model families, and require careful hyperparameter tuning due to the trade-off between detoxification efficacy and language modeling performance. In contrast, UniDetox provides a detoxification technique that can be universally applied to a wide range of LLMs without the need for separate model-specific tuning. Specifically, we propose a novel and efficient dataset distillation technique for detoxification using contrastive decoding. This approach distills detoxifying representations in the form of synthetic text data, enabling universal detoxification of any LLM through fine-tuning with the distilled text. Our experiments demonstrate that the detoxifying text distilled from GPT-2 can effectively detoxify larger models, including OPT, Falcon, and LLaMA-2. Furthermore, UniDetox eliminates the need for separate hyperparameter tuning for each model, as a single hyperparameter configuration can be seamlessly applied across different models. Additionally, analysis of the detoxifying text reveals a reduction in politically biased content, providing insights into the attributes necessary for effective detoxification of LLMs.

arxiv情報

著者 Huimin Lu,Masaru Isonuma,Junichiro Mori,Ichiro Sakata
発行日 2025-04-29 07:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation はコメントを受け付けていません

Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation

要約

ビジョン言語モデル(VLMS)の評価は、主に英語のベンチマークに依存しており、多言語と多文化の両方のカバレッジの両方に大きなギャップを残しています。
多言語のベンチマークはサイズと言語の両方で拡張されていますが、多くは英語のデータセットの翻訳に依存しており、文化的なニュアンスをキャプチャできません。
この作業では、視覚言語モデルの多言語評価のために、これまでで最も包括的な試験ベンチマークとして万華鏡を提案します。
KaleIdoscopeは、多様な言語と視覚入力を超えてVLMを評価するために設計された大規模で言語内のマルチモーダルベンチマークです。
万華鏡は18の言語と14の異なる被験者をカバーし、合計20,911の複数選択の質問に相当します。
世界中の多様な研究者グループとのオープンサイエンスコラボレーションを通じて構築された万華鏡は、言語的および文化的信頼性を保証します。
トップパフォーマンスの多言語ビジョン言語モデルを評価し、低リソース言語や複雑なマルチモーダルシナリオではパフォーマンスが低いことがわかります。
私たちの結果は、文化的に包括的なマルチモーダル評価フレームワークの進歩の必要性を強調しています。

要約(オリジナル)

The evaluation of vision-language models (VLMs) has mainly relied on English-language benchmarks, leaving significant gaps in both multilingual and multicultural coverage. While multilingual benchmarks have expanded, both in size and languages, many rely on translations of English datasets, failing to capture cultural nuances. In this work, we propose Kaleidoscope, as the most comprehensive exam benchmark to date for the multilingual evaluation of vision-language models. Kaleidoscope is a large-scale, in-language multimodal benchmark designed to evaluate VLMs across diverse languages and visual inputs. Kaleidoscope covers 18 languages and 14 different subjects, amounting to a total of 20,911 multiple-choice questions. Built through an open science collaboration with a diverse group of researchers worldwide, Kaleidoscope ensures linguistic and cultural authenticity. We evaluate top-performing multilingual vision-language models and find that they perform poorly on low-resource languages and in complex multimodal scenarios. Our results highlight the need for progress on culturally inclusive multimodal evaluation frameworks.

arxiv情報

著者 Israfel Salazar,Manuel Fernández Burda,Shayekh Bin Islam,Arshia Soltani Moakhar,Shivalika Singh,Fabian Farestam,Angelika Romanou,Danylo Boiko,Dipika Khullar,Mike Zhang,Dominik Krzemiński,Jekaterina Novikova,Luísa Shimabucoro,Joseph Marvin Imperial,Rishabh Maheshwary,Sharad Duwal,Alfonso Amayuelas,Swati Rajwal,Jebish Purbey,Ahmed Ruby,Nicholas Popovič,Marek Suppa,Azmine Toushik Wasi,Ram Mohan Rao Kadiyala,Olga Tsymboi,Maksim Kostritsya,Bardia Soltani Moakhar,Gabriel da Costa Merlin,Otávio Ferracioli Coletti,Maral Jabbari Shiviari,MohammadAmin farahani fard,Silvia Fernandez,María Grandury,Dmitry Abulkhanov,Drishti Sharma,Andre Guarnier De Mitri,Leticia Bossatto Marchezi,Setayesh Heydari,Johan Obando-Ceron,Nazar Kohut,Beyza Ermis,Desmond Elliott,Enzo Ferrante,Sara Hooker,Marzieh Fadaee
発行日 2025-04-29 07:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation はコメントを受け付けていません

Pose-Based Sign Language Appearance Transfer

要約

サインコンテンツを保存しながら、手話の骨格ポーズで署名者の外観を転送する方法を紹介します。
推定されたポーズを使用して、ある署名者の外観を別の署名者に転送し、自然の動きと移行を維持します。
このアプローチは、アイデンティティを難読化しながら、ポーズベースのレンダリングと署名ステッチを改善します。
私たちの実験では、この方法は署名者の識別精度を低下させますが、プライバシーとユーティリティのトレードオフを強調して、看板認識パフォーマンスにわずかに害を及ぼします。
私たちのコードは、https://github.com/sign-language-processing/pose-anonymizationで入手できます。

要約(オリジナル)

We introduce a method for transferring the signer’s appearance in sign language skeletal poses while preserving the sign content. Using estimated poses, we transfer the appearance of one signer to another, maintaining natural movements and transitions. This approach improves pose-based rendering and sign stitching while obfuscating identity. Our experiments show that while the method reduces signer identification accuracy, it slightly harms sign recognition performance, highlighting a tradeoff between privacy and utility. Our code is available at https://github.com/sign-language-processing/pose-anonymization.

arxiv情報

著者 Amit Moryossef,Gerard Sant,Zifan Jiang
発行日 2025-04-29 08:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Pose-Based Sign Language Appearance Transfer はコメントを受け付けていません

Revisiting the MIMIC-IV Benchmark: Experiments Using Language Models for Electronic Health Records

要約

テキスト入力の医療ドメインに標準化された評価ベンチマークの欠如は、健康関連の下流タスクの自然言語モデルの可能性を広く採用し、活用するための障壁となる可能性があります。
このペーパーでは、この問題に対処するために、電子健康記録(EHRS)のための公然と利用可能な模倣IVベンチマークを再訪しました。
まず、Hugging Face Datasets Library内にMimic-IVデータを統合して、このコレクションの簡単な共有と使用を可能にします。
次に、EHR表形式データをテキストに変換するためのテンプレートの適用を調査します。
患者の死亡率に関する微調整およびゼロショットLLMを使用した実験では、微調整されたテキストベースのモデルが堅牢な表形式分類子に対して競合していることが示されています。
対照的に、ゼロショットLLMSはEHR表現を活用するのに苦労しています。
この研究では、医療分野でのテキストベースのアプローチの可能性を強調し、さらなる改善のために領域を強調しています。

要約(オリジナル)

The lack of standardized evaluation benchmarks in the medical domain for text inputs can be a barrier to widely adopting and leveraging the potential of natural language models for health-related downstream tasks. This paper revisited an openly available MIMIC-IV benchmark for electronic health records (EHRs) to address this issue. First, we integrate the MIMIC-IV data within the Hugging Face datasets library to allow an easy share and use of this collection. Second, we investigate the application of templates to convert EHR tabular data to text. Experiments using fine-tuned and zero-shot LLMs on the mortality of patients task show that fine-tuned text-based models are competitive against robust tabular classifiers. In contrast, zero-shot LLMs struggle to leverage EHR representations. This study underlines the potential of text-based approaches in the medical field and highlights areas for further improvement.

arxiv情報

著者 Jesus Lovon,Thouria Ben-Haddi,Jules Di Scala,Jose G. Moreno,Lynda Tamine
発行日 2025-04-29 08:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Revisiting the MIMIC-IV Benchmark: Experiments Using Language Models for Electronic Health Records はコメントを受け付けていません

BrAIcht, a theatrical agent that speaks like Bertolt Brecht’s characters

要約

このプロジェクトは、有名なドイツの劇作家ベルトルト・ブレヒトの独特のスタイルで対話を作成するAI会話エージェントであるBraichtを紹介します。
Braichtは、70億パラメーターを備えた大規模な言語モデルと、ドイツ語の言語タスクに適したベースLlama2の修正バージョンを使用して、ドイツのレオムを使用して微調整されています。
微調整のために、ベルトルト・ブレヒトの29枚のベルトルト・ブレヒトと907のベルトルト・ブレヒトと様式的に類似した907は、より異なるデータセットを形成するために使用されます。
メモリ容量が限られているため、Qloraと呼ばれるパラメーター効率の良い微調整技術が実装され、大規模な言語モデルをトレーニングします。
BLEUスコアと困惑に基づいた結果は、Bertolt Brechtのスタイルで対話を生成する際にBraichtの非常に有望なパフォーマンスを示しています。

要約(オリジナル)

This project introduces BrAIcht, an AI conversational agent that creates dialogues in the distinctive style of the famous German playwright Bertolt Brecht. BrAIcht is fine-tuned using German LeoLM, a large language model with 7 billion parameters and a modified version of the base Llama2 suitable for German language tasks. For fine-tuning, 29 plays of Bertolt Brecht and 907 of other German plays that are stylistically similar to Bertolt Brecht are used to form a more di-erse dataset. Due to the limited memory capacity, a parameterefficient fine-tuning technique called QLoRA is implemented to train the large language model. The results, based on BLEU score and perplexity, show very promising performance of BrAIcht in generating dialogues in the style of Bertolt Brecht.

arxiv情報

著者 Baz Roland,Kristina Malyseva,Anna Pappa,Tristan Cazenave
発行日 2025-04-29 08:55:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BrAIcht, a theatrical agent that speaks like Bertolt Brecht’s characters はコメントを受け付けていません

Versatile Framework for Song Generation with Prompt-based Control

要約

Song Generationは、さまざまなプロンプトに基づいて制御可能な高品質の曲の作成に焦点を当てています。
ただし、既存の方法は、迅速な制御と適切なアライメントを備えたボーカルと伴奏を生成するのに苦労しています。
さらに、それらはさまざまなタスクをサポートするのに不足しています。
これらの課題に対処するために、高品質で整列した曲をプロンプトベースのコントロールで合成するためのマルチタスクソング生成フレームワークであるVersbandを紹介します。
Versbandは、これらのプライマリモデルで構成されています。1)分離モデルであるボーカルバンドは、歌スタイル、ピッチ、メルセプレクトグラムを生成するためのフローマッチング方法を活用し、スタイルコントロールで高速で高品質のボーカル生成を可能にします。
2)フローベースの変圧器モデルであるAversbandは、バンドMOEを組み込み、品質、アライメント、および制御を向上させるために適切な専門家を選択します。
このモデルにより、ボーカルに合わせた制御可能な高品質の伴奏を生成できます。
3)歌詞用の叙情バンドとメロディー用のメロディバンドの2つの生成モデルは、包括的なマルチタスクソングジェネレーションシステムに貢献し、複数のプロンプトに基づいた広範な制御を可能にします。
実験結果は、客観的および主観的なメトリックを使用して、複数の歌の生成タスクにわたってベースラインモデルよりも優れたパフォーマンスを発揮することを示しています。
オーディオサンプルはhttps://aaronz345.github.io/versbanddemoで入手できます。

要約(オリジナル)

Song generation focuses on producing controllable high-quality songs based on various prompts. However, existing methods struggle to generate vocals and accompaniments with prompt-based control and proper alignment. Additionally, they fall short in supporting various tasks. To address these challenges, we introduce VersBand, a multi-task song generation framework for synthesizing high-quality, aligned songs with prompt-based control. VersBand comprises these primary models: 1) VocalBand, a decoupled model, leverages the flow-matching method for generating singing styles, pitches, and mel-spectrograms, allowing fast, high-quality vocal generation with style control. 2) AccompBand, a flow-based transformer model, incorporates the Band-MOE, selecting suitable experts for enhanced quality, alignment, and control. This model allows for generating controllable, high-quality accompaniments aligned with vocals. 3) Two generation models, LyricBand for lyrics and MelodyBand for melodies, contribute to the comprehensive multi-task song generation system, allowing for extensive control based on multiple prompts. Experimental results demonstrate that VersBand performs better over baseline models across multiple song generation tasks using objective and subjective metrics. Audio samples are available at https://aaronz345.github.io/VersBandDemo.

arxiv情報

著者 Yu Zhang,Wenxiang Guo,Changhao Pan,Zhiyuan Zhu,Ruiqi Li,Jingyu Lu,Rongjie Huang,Ruiyuan Zhang,Zhiqing Hong,Ziyue Jiang,Zhou Zhao
発行日 2025-04-29 09:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Versatile Framework for Song Generation with Prompt-based Control はコメントを受け付けていません