LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

要約

大規模言語モデル (LLM) は、事実の不正確さ、偏見、推論の失敗などのエラーを引き起こすことが多く、これらを総称して「幻覚」と呼びます。
最近の研究では、LLM の内部状態がその出力の真実性に関する情報をエンコードしており、この情報をエラー検出に利用できることが実証されています。
この研究では、LLM の内部表現が、以前に認識されていたよりもはるかに多くの真実性に関する情報をエンコードしていることを示します。
私たちは、真実性の情報が特定のトークンに集中していることを初めて発見し、この特性を活用することでエラー検出パフォーマンスが大幅に向上しました。
しかし、我々は、そのようなエラー検出器がデータセット全体で一般化できないことを示し、これは、以前の主張に反して、真実性エンコーディングが普遍的ではなく、むしろ多面的であることを示唆しています。
次に、モデルが発生する可能性のあるエラーの種類を予測するために内部表現も使用でき、カスタマイズされた軽減戦略の開発が容易になることを示します。
最後に、LLM の内部エンコーディングと外部動作の間の矛盾を明らかにします。LLM は正しい答えをエンコードする可能性があるにもかかわらず、一貫して不正確な答えを生成する可能性があります。
これらの洞察を総合すると、モデルの内部の観点から LLM エラーについての理解が深まり、エラー分析と軽減を強化するための将来の研究に役立てることができます。

要約(オリジナル)

Large language models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as ‘hallucinations’. Recent studies have demonstrated that LLMs’ internal states encode information regarding the truthfulness of their outputs, and that this information can be utilized to detect errors. In this work, we show that the internal representations of LLMs encode much more information about truthfulness than previously recognized. We first discover that the truthfulness information is concentrated in specific tokens, and leveraging this property significantly enhances error detection performance. Yet, we show that such error detectors fail to generalize across datasets, implying that — contrary to prior claims — truthfulness encoding is not universal but rather multifaceted. Next, we show that internal representations can also be used for predicting the types of errors the model is likely to make, facilitating the development of tailored mitigation strategies. Lastly, we reveal a discrepancy between LLMs’ internal encoding and external behavior: they may encode the correct answer, yet consistently generate an incorrect one. Taken together, these insights deepen our understanding of LLM errors from the model’s internal perspective, which can guide future research on enhancing error analysis and mitigation.

arxiv情報

著者 Hadas Orgad,Michael Toker,Zorik Gekhman,Roi Reichart,Idan Szpektor,Hadas Kotek,Yonatan Belinkov
発行日 2024-10-07 14:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 | コメントする

On the Structure of Game Provenance and its Applications

要約

データベースの出自は、肯定的なクエリと再帰的なクエリ、次に一次 (FO) クエリ、つまり否定はあるが再帰がないクエリについて徹底的に研究されています。
クエリの評価は、対戦相手がクエリの回答にタプルが含まれるかどうかを議論する 2 人用ゲームとして理解できます。
このゲーム理論的なアプローチにより、FO クエリの自然な来歴モデルが生成され、来歴と理由を統一します。
ここでは、ゲームの起源の詳細な構造を研究します。
ゲーム $G=(V,E)$ は位置 $V$ と移動 $E$ で構成され、単一の層別化不可能なルールの十分に根拠のあるモデルを計算することで解決できます: \[ \text{win}(X)
\leftarrow \text{move}(X, Y)、\neg \、\text{win}(Y)。
\] 解決されたゲーム $G^{\lambda}$ では、位置 $x\,{\in}\,V$ の値は勝ち、負け、または引き分けのいずれかになります。
この値は、来歴 $\mathscr{P}$(x)、つまり $x$ から到達可能な特定の (注釈付き) エッジによって説明されます。
私たちは、新しい種類の起源を生み出す 7 つのエッジ タイプ、つまり、潜在的、実際的、および主要なエッジを特定し、「すべての手が同じように作成されるわけではない」ことを実証します。
新しい来歴タイプについて説明し、ゲームを解く際にそれらをどのように計算できるかを示し、抽象議論フレームワークなどのアプリケーションについて説明します。

要約(オリジナル)

Provenance in databases has been thoroughly studied for positive and for recursive queries, then for first-order (FO) queries, i.e., having negation but no recursion. Query evaluation can be understood as a two-player game where the opponents argue whether or not a tuple is in the query answer. This game-theoretic approach yields a natural provenance model for FO queries, unifying how and why-not provenance. Here, we study the fine-grain structure of game provenance. A game $G=(V,E)$ consists of positions $V$ and moves $E$ and can be solved by computing the well-founded model of a single, unstratifiable rule: \[ \text{win}(X) \leftarrow \text{move}(X, Y), \neg \, \text{win}(Y). \] In the solved game $G^{\lambda}$, the value of a position $x\,{\in}\,V$ is either won, lost, or drawn. This value is explained by the provenance $\mathscr{P}$(x), i.e., certain (annotated) edges reachable from $x$. We identify seven edge types that give rise to new kinds of provenance, i.e., potential, actual, and primary, and demonstrate that ‘not all moves are created equal’. We describe the new provenance types, show how they can be computed while solving games, and discuss applications, e.g., for abstract argumentation frameworks.

arxiv情報

著者 Shawn Bowers,Yilin Xia,Bertram Ludäscher
発行日 2024-10-07 14:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

AI-Enhanced Ethical Hacking: A Linux-Focused Experiment

要約

この技術レポートは、包括的な実験研究と概念分析を通じて、生成 AI (GenAI)、特に ChatGPT の倫理的ハッキングの実践への統合を調査します。
この調査は、制御された仮想環境で実施され、仮想ローカル エリア ネットワーク (LAN) 内で動作する Linux ベースのターゲット マシンに対する侵入テストの主要な段階 (偵察、スキャンと列挙、アクセスの取得、アクセスの維持、および
線路をカバーしています。
この調査結果は、GenAI が倫理的ハッキング プロセスを大幅に強化および合理化できることを裏付けるとともに、人間の入力を完全に置き換えるのではなく、バランスの取れた人間と AI のコラボレーションの重要性を強調しています。
このレポートでは、誤用、データのバイアス、幻覚、AI への過度の依存などの潜在的なリスクも批判的に調査しています。
この研究は、サイバーセキュリティにおける AI の倫理的使用に関する進行中の議論に貢献し、セキュリティ防御を強化するための継続的なイノベーションの必要性を浮き彫りにします。

要約(オリジナル)

This technical report investigates the integration of generative AI (GenAI), specifically ChatGPT, into the practice of ethical hacking through a comprehensive experimental study and conceptual analysis. Conducted in a controlled virtual environment, the study evaluates GenAI’s effectiveness across the key stages of penetration testing on Linux-based target machines operating within a virtual local area network (LAN), including reconnaissance, scanning and enumeration, gaining access, maintaining access, and covering tracks. The findings confirm that GenAI can significantly enhance and streamline the ethical hacking process while underscoring the importance of balanced human-AI collaboration rather than the complete replacement of human input. The report also critically examines potential risks such as misuse, data biases, hallucination, and over-reliance on AI. This research contributes to the ongoing discussion on the ethical use of AI in cybersecurity and highlights the need for continued innovation to strengthen security defences.

arxiv情報

著者 Haitham S. Al-Sinani,Chris J. Mitchell
発行日 2024-10-07 15:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | コメントする

AlphaRouter: Quantum Circuit Routing with Reinforcement Learning and Tree Search

要約

量子コンピューターは、最適化や数因数分解などの重要なタスクにおいて古典的なコンピューターを上回るパフォーマンスを発揮する可能性があります。
これらは接続性が制限されていることが特徴で、量子演算を実行するにはプログラム実行中に量子ビットとして知られる計算ビットを特定の場所にルーティングする必要があります。
従来、配線オーバーヘッドを最小限に抑えるという NP ハード最適化の問題は、コスト関数設計内に組み込まれた固有の人的バイアスを伴う、次善のルールベースの配線手法によって対処されてきました。
このペーパーでは、モンテカルロ ツリー検索 (MCTS) と強化学習 (RL) を統合するソリューションを紹介します。
AlphaRouter と呼ばれる当社の RL ベースのルーターは、現在の最先端のルーティング方法よりも優れたパフォーマンスを発揮し、最大 $20\%$ 少ないルーティング オーバーヘッドで量子プログラムを生成するため、量子コンピューティングの全体的な効率と実現可能性が大幅に向上します。

要約(オリジナル)

Quantum computers have the potential to outperform classical computers in important tasks such as optimization and number factoring. They are characterized by limited connectivity, which necessitates the routing of their computational bits, known as qubits, to specific locations during program execution to carry out quantum operations. Traditionally, the NP-hard optimization problem of minimizing the routing overhead has been addressed through sub-optimal rule-based routing techniques with inherent human biases embedded within the cost function design. This paper introduces a solution that integrates Monte Carlo Tree Search (MCTS) with Reinforcement Learning (RL). Our RL-based router, called AlphaRouter, outperforms the current state-of-the-art routing methods and generates quantum programs with up to $20\%$ less routing overhead, thus significantly enhancing the overall efficiency and feasibility of quantum computing.

arxiv情報

著者 Wei Tang,Yiheng Duan,Yaroslav Kharkov,Rasool Fakoor,Eric Kessler,Yunong Shi
発行日 2024-10-07 15:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY, quant-ph | コメントする

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

要約

大規模言語モデル (LLM) のコンテキスト ウィンドウの拡張により、さまざまなアプリケーションの機能が大幅に強化されましたが、特に最初のトークンまでの時間 (TTFT) において、低遅延を維持する際に大きな課題も生じます。
このペーパーでは、コンテキストの長さが増加するにつれて TTFT が急激に上昇するのは、主にキュー遅延によって引き起こされていることがわかります。この遅延は、GPU キー/バリュー (KV) キャッシュ割り当てに対する需要の増大と、KV キャッシュ ブロックの限られた可用性との衝突によって引き起こされます。
この問題に対処するために、追加のハードウェアを必要とせず、出力パフォーマンスを犠牲にすることなく、既存の並列化戦略やスケジューリング技術とシームレスに統合しながら、TTFT を効果的に削減する、シンプルかつ効果的なプラグイン手法である LayerKV を提案します。
具体的には、LayerKV は、システム メモリをきめ細かく制御するためのレイヤーごとの KV ブロックの割り当て、管理、オフロードを導入し、SLO 対応スケジューラーと組み合わせて、全体的なサービス レベル目標 (SLO) を最適化します。
さまざまな GPU 構成にわたる 7B から 70B のパラメーターにわたる代表的なモデルの包括的な評価では、LayerKV が TTFT レイテンシーを最大 69 倍改善し、SLO 違反率を 28.7% 削減し、ユーザー エクスペリエンスを大幅に向上させることが実証されました。

要約(オリジナル)

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.

arxiv情報

著者 Yi Xiong,Hao Wu,Changxu Shao,Ziqing Wang,Rui Zhang,Yuhong Guo,Junping Zhao,Ke Zhang,Zhenxuan Pan
発行日 2024-10-07 15:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.DC, cs.LG | コメントする

Last Iterate Convergence in Monotone Mean Field Games

要約

Mean Field Game (MFG) は、多数のエージェントの動作をモデル化して近似するために利用されるフレームワークであり、MFG における均衡の計算は関心の対象となっています。
均衡を近似する方法が提案されているにもかかわらず、更新されたポリシーのシーケンスが均衡に収束するアルゴリズム、特に最後の反復収束を示すアルゴリズムは限られています。
MFG の平衡を計算するために、単純な近位点タイプのアルゴリズムの使用を提案します。
続いて、Lasry-Lions 型の単調性条件の下で最初の最終反復収束保証を提供します。
さらに、正規化された MFG に対してミラー降下アルゴリズムを使用して、MFG の近接点法の更新ルールを効率的に近似します。
$\mathcal{O}({\log(1/\varepsilon)})$ 回の反復後にアルゴリズムが $\varepsilon$ の精度で近似できることを示します。
この研究は、大規模かつ人口の多いゲームに対する扱いやすいアプローチを提供します。

要約(オリジナル)

Mean Field Game (MFG) is a framework utilized to model and approximate the behavior of a large number of agents, and the computation of equilibria in MFG has been a subject of interest. Despite the proposal of methods to approximate the equilibria, algorithms where the sequence of updated policy converges to equilibrium, specifically those exhibiting last-iterate convergence, have been limited. We propose the use of a simple, proximal-point-type algorithm to compute equilibria for MFGs. Subsequently, we provide the first last-iterate convergence guarantee under the Lasry–Lions-type monotonicity condition. We further employ the Mirror Descent algorithm for the regularized MFG to efficiently approximate the update rules of the proximal point method for MFGs. We demonstrate that the algorithm can approximate with an accuracy of $\varepsilon$ after $\mathcal{O}({\log(1/\varepsilon)})$ iterations. This research offers a tractable approach for large-scale and large-population games.

arxiv情報

著者 Noboru Isobe,Kenshi Abe,Kaito Ariu
発行日 2024-10-07 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 91A16, cs.AI, cs.GT | コメントする

Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization

要約

組み合わせ最適化は、現実世界の多くのアプリケーションにとって重要ですが、その (NP) 困難な性質により依然として課題が存在します。
既存のアプローチの中でも、ヒューリスティックは品質とスケーラビリティの間で最適なトレードオフを提供することが多く、産業用途に適しています。
強化学習 (RL) はヒューリスティックを設計するための柔軟なフレームワークを提供しますが、産業用ソルバー内では手作りヒューリスティックに対するその導入はまだ不完全です。
既存の学習された手法には、特定のインスタンスに適応し、利用可能な計算予算を最大限に活用する能力がまだ不足しています。
現在の最良の方法は、事前トレーニングされたポリシーのコレクション、またはデータ非効率な微調整に依存しています。
そのため、予算の制約内で新たに入手可能な情報を十分に活用できていないのです。
これに応えて、メモリを活用して推論時のニューラル ソルバーの適応を改善するアプローチである MEMENTO を紹介します。
MEMENTO を使用すると、以前の決定の結果に基づいてアクションの分布を動的に更新できます。
ベンチマーク問題、特に巡回セールスマンとキャパシテッド・ビークル・ルーティングに対する有効性を検証し、ツリー検索やポリシー勾配の微調整よりも優れていることを実証します。
そして、ダイバーシティベースのソルバーと組み合わせてゼロショットできることを示しています。
すべての RL 自己回帰ソルバーを大規模なインスタンスでトレーニングすることに成功し、MEMENTO が拡張可能でデータ効率が高いことを示しました。
全体として、MEMENTO は 12 の評価タスクのうち 11 で最先端の技術を導入することができます。

要約(オリジナル)

Combinatorial Optimization is crucial to numerous real-world applications, yet still presents challenges due to its (NP-)hard nature. Amongst existing approaches, heuristics often offer the best trade-off between quality and scalability, making them suitable for industrial use. While Reinforcement Learning (RL) offers a flexible framework for designing heuristics, its adoption over handcrafted heuristics remains incomplete within industrial solvers. Existing learned methods still lack the ability to adapt to specific instances and fully leverage the available computational budget. The current best methods either rely on a collection of pre-trained policies, or on data-inefficient fine-tuning; hence failing to fully utilize newly available information within the constraints of the budget. In response, we present MEMENTO, an approach that leverages memory to improve the adaptation of neural solvers at inference time. MEMENTO enables updating the action distribution dynamically based on the outcome of previous decisions. We validate its effectiveness on benchmark problems, in particular Traveling Salesman and Capacitated Vehicle Routing, demonstrating its superiority over tree-search and policy-gradient fine-tuning; and showing it can be zero-shot combined with diversity-based solvers. We successfully train all RL auto-regressive solvers on large instances, and show that MEMENTO can scale and is data-efficient. Overall, MEMENTO enables to push the state-of-the-art on 11 out of 12 evaluated tasks.

arxiv情報

著者 Felix Chalumeau,Refiloe Shabe,Noah De Nicola,Arnu Pretorius,Thomas D. Barrett,Nathan Grinsztajn
発行日 2024-10-07 15:33:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Scalable and Accurate Graph Reasoning with LLM-based Multi-Agents

要約

最近の研究では、複雑なグラフ推論タスクに取り組むための大規模言語モデル (LLM) の使用が検討されています。
ただし、グラフ構造の複雑さと長いテキストの処理における LLM の固有の制限により、現在のアプローチでは、小規模なグラフや単純なタスクであっても満足のいく精度を実現できないことがよくあります。
これらの課題に対処するために、明示的かつ正確なグラフ推論のためのマルチエージェント コラボレーション戦略を利用する、微調整不要のフレームワークである GraphAgent-Reasoner を導入します。
分散グラフ計算理論にインスピレーションを得た私たちのフレームワークは、グラフの問題を複数のエージェントに分散されるより小さなノード中心のタスクに分解します。
エージェントは協力して全体的な問題を解決し、単一の LLM で処理される情報量と複雑さを大幅に削減し、グラフ推論の精度を高めます。
エージェントの数を増やすだけで、GraphAgent-Reasoner は 1,000 ノードを超える大きなグラフに対応できるように効率的に拡張できます。
GraphInstruct データセットで評価された私たちのフレームワークは、多項式時間グラフ推論タスクでほぼ完璧な精度を示し、クローズドソースと微調整されたオープンソースの両方の利用可能な最良のモデルを大幅に上回ります。
私たちのフレームワークは、Web ページの重要性分析などの現実世界のグラフ推論アプリケーションを処理する機能も示しています。

要約(オリジナル)

Recent research has explored the use of Large Language Models (LLMs) for tackling complex graph reasoning tasks. However, due to the intricacies of graph structures and the inherent limitations of LLMs in handling long text, current approaches often fail to deliver satisfactory accuracy, even on small-scale graphs and simple tasks. To address these challenges, we introduce GraphAgent-Reasoner, a fine-tuning-free framework that utilizes a multi-agent collaboration strategy for explicit and precise graph reasoning. Inspired by distributed graph computation theory, our framework decomposes graph problems into smaller, node-centric tasks that are distributed among multiple agents. The agents collaborate to solve the overall problem, significantly reducing the amount of information and complexity handled by a single LLM, thus enhancing the accuracy of graph reasoning. By simply increasing the number of agents, GraphAgent-Reasoner can efficiently scale to accommodate larger graphs with over 1,000 nodes. Evaluated on the GraphInstruct dataset, our framework demonstrates near-perfect accuracy on polynomial-time graph reasoning tasks, significantly outperforming the best available models, both closed-source and fine-tuned open-source variants. Our framework also demonstrates the capability to handle real-world graph reasoning applications such as webpage importance analysis.

arxiv情報

著者 Yuwei Hu,Runlin Lei,Xinyi Huang,Zhewei Wei,Yongchao Liu
発行日 2024-10-07 15:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP)

要約

対照学習は深層学習の強力な方法として登場し、異なる分布からのサンプルを対照することによって効果的な表現を学習することに優れています。
ただし、埋め込みが低次元の空間に収束するニューラル崩壊は、特に半教師ありおよび自己教師ありの設定において、重大な課題を引き起こします。
この論文では、まず、コサイン類似度メトリックのみに依存する対比損失に対する大きな学習率の影響を理論的に分析し、この崩壊を緩和するための理論的限界を導き出します。
{これらの洞察に基づいて、クラス埋め込み間の直交線形部分空間の形成を促進することで神経崩壊を防ぐように設計された新しい半教師あり損失関数である CLOP を提案します。} シンプレックス ETF 構造を強制する以前のアプローチとは異なり、CLOP は部分空間の分離に焦点を当てています。
、より識別可能な埋め込みにつながります。
実際のデータセットと合成データセットに対する広範な実験を通じて、CLOP がパフォーマンスを向上させ、さまざまな学習率やバッチ サイズにわたって安定性が向上することを実証しました。

要約(オリジナル)

Contrastive learning has emerged as a powerful method in deep learning, excelling at learning effective representations through contrasting samples from different distributions. However, neural collapse, where embeddings converge into a lower-dimensional space, poses a significant challenge, especially in semi-supervised and self-supervised setups. In this paper, we first theoretically analyze the effect of large learning rates on contrastive losses that solely rely on the cosine similarity metric, and derive a theoretical bound to mitigate this collapse. {Building on these insights, we propose CLOP, a novel semi-supervised loss function designed to prevent neural collapse by promoting the formation of orthogonal linear subspaces among class embeddings.} Unlike prior approaches that enforce a simplex ETF structure, CLOP focuses on subspace separation, leading to more distinguishable embeddings. Through extensive experiments on real and synthetic datasets, we demonstrate that CLOP enhances performance, providing greater stability across different learning rates and batch sizes.

arxiv情報

著者 Huanran Li,Manh Nguyen,Daniel Pimentel-Alarcón
発行日 2024-10-07 16:07:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Presto! Distilling Steps and Layers for Accelerating Music Generation

要約

拡散ベースのテキスト音楽変換 (TTM) 手法は進歩していますが、効率的で高品質な生成は依然として課題です。
サンプリング ステップとステップあたりのコストの両方を削減することで、スコアベースの拡散変換器の推論を高速化するアプローチである Presto! を紹介します。
ステップを削減するために、EDM ファミリーの拡散モデル用の新しいスコアベースの分布一致蒸留 (DMD) メソッドを開発しました。これは、TTM 用の初の GAN ベースの蒸留メソッドです。
ステップあたりのコストを削減するために、隠れ状態の分散をより良く保存することで学習を改善する、最近の層蒸留法に対するシンプルだが強力な改良を開発しました。
最後に、段階蒸留法と層蒸留法を組み合わせて、二面的なアプローチを実現します。
当社は段階蒸留法と層蒸留法を個別に評価し、それぞれの収量がクラス最高のパフォーマンスを示しています。
当社の複合蒸留方法は、ダイバーシティが向上した高品質の出力を生成することができ、ベースモデルを 10 ~ 18 倍高速化できます (32 秒のモノラル/ステレオ 44.1kHz で 230/435 ミリ秒の遅延、同等の SOTA より 15 倍高速)。これは最速の高品質 TTM です。
私たちの知る限りでは。
サウンドのサンプルは https://presto-music.github.io/web/ にあります。

要約(オリジナル)

Despite advances in diffusion-based text-to-music (TTM) methods, efficient, high-quality generation remains a challenge. We introduce Presto!, an approach to inference acceleration for score-based diffusion transformers via reducing both sampling steps and cost per step. To reduce steps, we develop a new score-based distribution matching distillation (DMD) method for the EDM-family of diffusion models, the first GAN-based distillation method for TTM. To reduce the cost per step, we develop a simple, but powerful improvement to a recent layer distillation method that improves learning via better preserving hidden state variance. Finally, we combine our step and layer distillation methods together for a dual-faceted approach. We evaluate our step and layer distillation methods independently and show each yield best-in-class performance. Our combined distillation method can generate high-quality outputs with improved diversity, accelerating our base model by 10-18x (230/435ms latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) — the fastest high-quality TTM to our knowledge. Sound examples can be found at https://presto-music.github.io/web/.

arxiv情報

著者 Zachary Novack,Ge Zhu,Jonah Casebeer,Julian McAuley,Taylor Berg-Kirkpatrick,Nicholas J. Bryan
発行日 2024-10-07 16:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントする