Detect and Correct: A Selective Noise Correction Method for Learning with Noisy Labels

要約

ノイズの多いラベルとも呼ばれる誤って注釈付きのサンプルは、ディープラーニングモデルのパフォーマンスを大きく害する可能性があります。
騒々しいラベルを使用して学習するための2つの主なアプローチは、グローバルノイズの推定とデータフィルタリングです。
グローバルノイズ推定は、ノイズ遷移マトリックスを使用してデータセット全体のノイズに近似しますが、正しいラベルを不必要に調整し、ローカルの改善の余地を残すことができます。
一方、データフィルタリングは、潜在的にノイズの多いサンプルを破棄しますが、貴重なデータを失うリスクがあります。
私たちの方法は、損失分布に基づいて潜在的にノイズの多いサンプルを識別します。
次に、選択プロセスを適用してノイズの多いサンプルを分離し、ノイズトランジションマトリックスを学習して、クリーンデータを影響を受けないままにして、トレーニングプロセスを改善します。
私たちのアプローチは、ノイズの多いサンプルから貴重な情報を保存し、修正プロセスを改良することにより、堅牢な学習とモデルパフォーマンスを強化します。
標準の画像データセット(MNIST、CIFAR-10、およびCIFAR-100)および生物学的SCRNA-SEQ細胞型アノテーションデータセットに方法を適用しました。
従来の方法と比較して、モデルの精度と堅牢性の大幅な改善が観察されました。

要約(オリジナル)

Falsely annotated samples, also known as noisy labels, can significantly harm the performance of deep learning models. Two main approaches for learning with noisy labels are global noise estimation and data filtering. Global noise estimation approximates the noise across the entire dataset using a noise transition matrix, but it can unnecessarily adjust correct labels, leaving room for local improvements. Data filtering, on the other hand, discards potentially noisy samples but risks losing valuable data. Our method identifies potentially noisy samples based on their loss distribution. We then apply a selection process to separate noisy and clean samples and learn a noise transition matrix to correct the loss for noisy samples while leaving the clean data unaffected, thereby improving the training process. Our approach ensures robust learning and enhanced model performance by preserving valuable information from noisy samples and refining the correction process. We applied our method to standard image datasets (MNIST, CIFAR-10, and CIFAR-100) and a biological scRNA-seq cell-type annotation dataset. We observed a significant improvement in model accuracy and robustness compared to traditional methods.

arxiv情報

著者 Yuval Grinberg,Nimrod Harel,Jacob Goldberger,Ofir Lindenbaum
発行日 2025-05-19 16:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Detect and Correct: A Selective Noise Correction Method for Learning with Noisy Labels はコメントを受け付けていません

MRM3: Machine Readable ML Model Metadata

要約

機械学習(ML)モデルの複雑さと数が増えるにつれて、開発者や企業が特定のユースケースに使用または適応するためには、十分に文書化されたMLモデルが不可欠です。
モデルメタデータは、既に構造化されていない形式で存在しており、フェイスを抱き締めるオンラインリポジトリのモデルカードとして存在し、エネルギー消費や二酸化炭素排出量などの環境影響メトリックも組み込まれている間、より構造化され、機械の読み取り可能になります。
私たちの作業は、MLモデルメタデータの構造化されたスキーマを、マシン読み取り可能な形式に焦点を当てたMLモデルメタデータの構造化されたスキーマと、より良い組織化とクエリのための知識グラフ(kg)への統合のサポートを定義し、より広いユースケースを可能にすることにより、既存の最先端を拡張します。
さらに、4つのデータセットでトレーニングされた22のモデルで構成されるワイヤレスローカリゼーションモデルメタデータデータセットの例を示し、113のノードと199の関係を持つNeo4JベースのKGに統合されています。

要約(オリジナル)

As the complexity and number of machine learning (ML) models grows, well-documented ML models are essential for developers and companies to use or adapt them to their specific use cases. Model metadata, already present in unstructured format as model cards in online repositories such as Hugging Face, could be more structured and machine readable while also incorporating environmental impact metrics such as energy consumption and carbon footprint. Our work extends the existing State of the Art by defining a structured schema for ML model metadata focusing on machine-readable format and support for integration into a knowledge graph (KG) for better organization and querying, enabling a wider set of use cases. Furthermore, we present an example wireless localization model metadata dataset consisting of 22 models trained on 4 datasets, integrated into a Neo4j-based KG with 113 nodes and 199 relations.

arxiv情報

著者 Andrej Čop,Blaž Bertalanič,Marko Grobelnik,Carolina Fortuna
発行日 2025-05-19 16:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MRM3: Machine Readable ML Model Metadata はコメントを受け付けていません

Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference

要約

混合混合物(MOE)アーキテクチャは、専門家の並列性を備えた印象的な計算効率を達成することができ、これはデバイス間のすべての通信に大きく依存しています。
残念ながら、このような通信オーバーヘッドは通常、ランタイム全体のかなりの部分を構成し、最新のMOEモデルの分散トレーニングと推論のスケーラビリティを妨げます(大規模トレーニングでは40ドル以上の\%$ランタイムを消費します)。
この論文では、まずこの本質的な制限を説明するために共同コミュニケーションを定義し、次にコミュニケーションコストを削減するためにシステムおよびアルゴリズムレベルのイノベーションを提案します。
具体的には、1つのトークンによって共同活性化された専門家のペアを考えると、それらを「コラボレーション」と呼びます。これは、同じデバイスに保持されているかどうかに応じて、2ドルのケースを総合的およびインターコラボレーションとしています。
私たちのパイロット調査により、耐性内の割合を増強すると、大規模な専門家の並列性が加速できることが明らかになりました。
Occultと呼ばれる、MOEトレーニングと推論を加速するために、共同コミュニケーションを戦略的に最適化するようになります。
当社のデザインは、通信コストを削減して正確な結果を提供するか、修正された微調整によって実現されたコラボレーション剪定によるコストを制御できるようにすることができます。
さまざまなMOE-LLMでの包括的な実験は、オカルトが人気のある最先端の推論やトレーニングフレームワーク($ 1.5 \ Times $を超えるタスクとモデルで$ 1.5 \ Times $速度)よりも高速であることを示しています。
コードは$ \ href {https://github.com/unites-lab/occult} {https://github.com/unites-lab/occult} $で入手できます。

要約(オリジナル)

Mixture-of-experts (MoE) architectures could achieve impressive computational efficiency with expert parallelism, which relies heavily on all-to-all communication across devices. Unfortunately, such communication overhead typically constitutes a significant portion of the total runtime, hampering the scalability of distributed training and inference for modern MoE models (consuming over $40\%$ runtime in large-scale training). In this paper, we first define collaborative communication to illustrate this intrinsic limitation, and then propose system- and algorithm-level innovations to reduce communication costs. Specifically, given a pair of experts co-activated by one token, we call them ‘collaborated’, which comprises $2$ cases as intra- and inter-collaboration, depending on whether they are kept on the same device. Our pilot investigations reveal that augmenting the proportion of intra-collaboration can accelerate expert parallelism at scale. It motivates us to strategically optimize collaborative communication for accelerated MoE training and inference, dubbed Occult. Our designs are capable of either delivering exact results with reduced communication cost or controllably minimizing the cost with collaboration pruning, materialized by modified fine-tuning. Comprehensive experiments on various MoE-LLMs demonstrate that Occult can be faster than popular state-of-the-art inference or training frameworks (more than $1.5\times$ speed up across multiple tasks and models) with comparable or superior quality compared to the standard fine-tuning. Code is available at $\href{https://github.com/UNITES-Lab/Occult}{https://github.com/UNITES-Lab/Occult}$.

arxiv情報

著者 Shuqing Luo,Pingzhi Li,Jie Peng,Hanrui Wang,Yang,Zhao,Yu,Cao,Yu Cheng,Tianlong Chen
発行日 2025-05-19 16:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference はコメントを受け付けていません

Mixed-Precision Conjugate Gradient Solvers with RL-Driven Precision Tuning

要約

このペーパーでは、前処理されたコンジュゲート勾配(CG)メソッドで数値精度を動的に最適化するための新しい強化学習(RL)フレームワークを紹介します。
Markov Decisionプロセス(MDP)として精密選択をモデル化することにより、Qラーニングを採用して、主要な操作に精密レベルを適応的に割り当て、計算効率と数値精度の間の最適なバランスを描きながら、二重精度のスカラー計算と残留コンピューティングを通じて安定性を確保します。
実際には、アルゴリズムは一連のデータでトレーニングされ、その後、新しいデータセットの再分析または再訓練を必要とせずに、サンプル外データの精度選択の推論を実行します。
これにより、この方法は、再較正の計算オーバーヘッドなしで新しい問題インスタンスにシームレスに適応することができます。
我々の結果は、RLのパフォーマンスを強化する際のRLの有効性を示しており、RLの最初のアプリケーションを混合精度の数値法にマークします。
調査結果は、アプローチの実際的な利点、堅牢性、およびスケーラビリティを強調し、反復ソルバーとの統合に関する貴重な洞察を提供し、科学コンピューティングのAI駆動型の進歩への道を開きます。

要約(オリジナル)

This paper presents a novel reinforcement learning (RL) framework for dynamically optimizing numerical precision in the preconditioned conjugate gradient (CG) method. By modeling precision selection as a Markov Decision Process (MDP), we employ Q-learning to adaptively assign precision levels to key operations, striking an optimal balance between computational efficiency and numerical accuracy, while ensuring stability through double-precision scalar computations and residual computing. In practice, the algorithm is trained on a set of data and subsequently performs inference for precision selection on out-of-sample data, without requiring re-analysis or retraining for new datasets. This enables the method to adapt seamlessly to new problem instances without the computational overhead of recalibration. Our results demonstrate the effectiveness of RL in enhancing solver’s performance, marking the first application of RL to mixed-precision numerical methods. The findings highlight the approach’s practical advantages, robustness, and scalability, providing valuable insights into its integration with iterative solvers and paving the way for AI-driven advancements in scientific computing.

arxiv情報

著者 Xinye Chen
発行日 2025-05-19 16:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Mixed-Precision Conjugate Gradient Solvers with RL-Driven Precision Tuning はコメントを受け付けていません

VisDiff: SDF-Guided Polygon Generation for Visibility Reconstruction and Recognition

要約

組み合わせ構造の豊富な表現をキャプチャする能力により、フロアプラン、地形、画像、アニメーションの分析や生成などのタスクに機械学習を適用することができました。
最近の研究は主に、明確に定義された機能、近隣、または基礎となる距離メトリックを持つ構造を理解することに焦点を当てていますが、そのような特性を欠くものはほとんど研究されていません。
これらの組み合わせ構造の例は、頂点の位置の小さな変化が、可視性または三角測量グラフとして表される組み合わせ構造の大幅な再配置を引き起こすポリゴンに見られます。
現在の表現学習アプローチは、明確に定義された機能や距離メトリックなしで構造をキャプチャできません。
このホワイトペーパーでは、可視性再構成のオープンな問題を検討します。可視性グラフ$ g $を与えられた場合、視認性グラフが$ g $であるポリゴン$ p $を作成します。
入力可視性グラフ$ g $からポリゴン$ p $を生成するための新しい拡散ベースのアプローチであるVisdiffを紹介します。
私たちのアプローチの主な斬新さは、ポリゴンの頂点セットを直接生成するのではなく、最初にポリゴンに関連付けられた署名距離関数(SDF)を推定することです。
次に、SDFを使用して、最終的なポリゴンを表す頂点の位置を抽出します。
SDFを通過することで、VisDiffが頂点の位置を直接生成するよりもはるかに効果的に視界関係を学習できることを示します。
VisDiffをトレーニングするために、慎重にキュレーションされたデータセットを作成します。
このデータセットを使用して、私たちの方法をベンチマークし、標準的な方法と最先端のアプローチよりもF1スコアで26%の改善を達成します。

要約(オリジナル)

The ability to capture rich representations of combinatorial structures has enabled the application of machine learning to tasks such as analysis and generation of floorplans, terrains, images, and animations. Recent work has primarily focused on understanding structures with well-defined features, neighborhoods, or underlying distance metrics, while those lacking such characteristics remain largely unstudied. Examples of these combinatorial structures can be found in polygons, where a small change in the vertex locations causes a significant rearrangement of the combinatorial structure, expressed as a visibility or triangulation graphs. Current representation learning approaches fail to capture structures without well-defined features and distance metrics. In this paper, we study the open problem of Visibility Reconstruction: Given a visibility graph $G$, construct a polygon $P$ whose visibility graph is $G$. We introduce VisDiff, a novel diffusion-based approach to generate polygon $P$ from the input visibility graph $G$. The main novelty of our approach is that, rather than generating the polygon’s vertex set directly, we first estimate the signed distance function (SDF) associated with the polygon. The SDF is then used to extract the vertex location representing the final polygon. We show that going through the SDF allows VisDiff to learn the visibility relationship much more effectively than generating vertex locations directly. In order to train VisDiff, we create a carefully curated dataset. We use this dataset to benchmark our method and achieve 26% improvement in F1-Score over standard methods as well as state of the art approaches.

arxiv情報

著者 Rahul Moorthy,Volkan Isler
発行日 2025-05-19 16:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.LG | VisDiff: SDF-Guided Polygon Generation for Visibility Reconstruction and Recognition はコメントを受け付けていません

Introducing Instruction-Accurate Simulators for Performance Estimation of Autotuning Workloads

要約

機械学習(ML)ワークロードの加速には、最適化スペースが大きいため、効率的な方法が必要です。
AutoTuningは、実装のバリエーションを体系的に評価するための効果的なアプローチとして浮上しています。
伝統的に、オートチューンでは、ターゲットハードウェア(HW)でワークロードを実行する必要があります。
シミュレータでオートチューニングワークロードを実行できるインターフェイスを提示します。
このアプローチは、ターゲットHWの可用性が制限されている場合に高いスケーラビリティを提供します。多くのシミュレーションは、アクセス可能なHWで並行して実行できます。
さらに、迅速な命令accurateシミュレータをオートチューニングに使用する可能性を評価します。
シミュレーション統計に基づいて、ターゲットHWでのMLワークロード実装のパフォーマンスを予測するために、さまざまな予測因子をトレーニングします。
私たちの結果は、調整された予測因子が非常に効果的であることを示しています。
ターゲットHWでの実際の実行時間に関する最適なワークロードの実装は、テストされたX86、ARM、およびRISC-Vベースのアーキテクチャの予測の上位3%内に常に含まれています。
最良のケースでは、このアプローチは、3つのシミュレータで並行して3つのサンプルを実行するときに、組み込みアーキテクチャのターゲットHWのネイティブ実行を上回ります。

要約(オリジナル)

Accelerating Machine Learning (ML) workloads requires efficient methods due to their large optimization space. Autotuning has emerged as an effective approach for systematically evaluating variations of implementations. Traditionally, autotuning requires the workloads to be executed on the target hardware (HW). We present an interface that allows executing autotuning workloads on simulators. This approach offers high scalability when the availability of the target HW is limited, as many simulations can be run in parallel on any accessible HW. Additionally, we evaluate the feasibility of using fast instruction-accurate simulators for autotuning. We train various predictors to forecast the performance of ML workload implementations on the target HW based on simulation statistics. Our results demonstrate that the tuned predictors are highly effective. The best workload implementation in terms of actual run time on the target HW is always within the top 3 % of predictions for the tested x86, ARM, and RISC-V-based architectures. In the best case, this approach outperforms native execution on the target HW for embedded architectures when running as few as three samples on three simulators in parallel.

arxiv情報

著者 Rebecca Pelke,Nils Bosbach,Lennart M. Reimann,Rainer Leupers
発行日 2025-05-19 16:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG | Introducing Instruction-Accurate Simulators for Performance Estimation of Autotuning Workloads はコメントを受け付けていません

XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants

要約

AIコーディングアシスタントは、コード生成などのタスクに広く使用されています。
これらのツールには、ファイル、プロジェクト、および貢献者$ \ unicode {x2014} $のさまざまな起源$ \ unicode {x2014} $から自動的に供給された大規模で複雑なコンテキストが必要になり、$ \ unicode {x2014} $基礎となるLLMに供給されるプロンプトの一部が形成されます。
この自動コンテキスト収集により、新しい脆弱性が導入され、攻撃者がアシスタントの出力を妥協するために微妙に入力できるようになり、脆弱なコードを生成したり、重大なエラーを導入したりできます。
私たちは、意味的に同等の敵対的なコードの修正に依存しているため、検出するのが難しい、新しい攻撃、オリジンクロスオリジンコンテキスト中毒(XOXO)を提案します。
従来のプログラム分析手法は、コードのセマンティクスが正しいままであり、合法的に見えるため、これらの摂動を特定するのに苦労しています。
これにより、攻撃者はコーディングアシスタントを操作して誤った出力を生成し、被害者開発者に責任をシフトします。
ケイリーグラフを使用して変換スペースを体系的に検索する新しいタスクに依存しないブラックボックス攻撃アルゴリズムGCGを導入し、一般的なAIコーディングアシスタントが使用するGPT 4.1およびClaude 3.5 Sonnet V2を含む5つのタスクと115モデルで平均75.72%の攻撃成功率を達成します。
さらに、敵対的な微調整のような防御は、私たちの攻撃に対して効果がなく、LLM駆動のコーディングツールでの新しいセキュリティ対策の必要性を強調しています。

要約(オリジナル)

AI coding assistants are widely used for tasks like code generation. These tools now require large and complex contexts, automatically sourced from various origins$\unicode{x2014}$across files, projects, and contributors$\unicode{x2014}$forming part of the prompt fed to underlying LLMs. This automatic context-gathering introduces new vulnerabilities, allowing attackers to subtly poison input to compromise the assistant’s outputs, potentially generating vulnerable code or introducing critical errors. We propose a novel attack, Cross-Origin Context Poisoning (XOXO), that is challenging to detect as it relies on adversarial code modifications that are semantically equivalent. Traditional program analysis techniques struggle to identify these perturbations since the semantics of the code remains correct, making it appear legitimate. This allows attackers to manipulate coding assistants into producing incorrect outputs, while shifting the blame to the victim developer. We introduce a novel, task-agnostic, black-box attack algorithm GCGS that systematically searches the transformation space using a Cayley Graph, achieving a 75.72% attack success rate on average across five tasks and eleven models, including GPT 4.1 and Claude 3.5 Sonnet v2 used by popular AI coding assistants. Furthermore, defenses like adversarial fine-tuning are ineffective against our attack, underscoring the need for new security measures in LLM-powered coding tools.

arxiv情報

著者 Adam Štorek,Mukur Gupta,Noopur Bhatt,Aditya Gupta,Janie Kim,Prashast Srivastava,Suman Jana
発行日 2025-05-19 17:10:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE | XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants はコメントを受け付けていません

Function Encoders: A Principled Approach to Transfer Learning in Hilbert Spaces

要約

転送学習の中心的な課題は、再訓練なしで新しいタスクに迅速に適応し、一般化できるアルゴリズムを設計することです。
しかし、アルゴリズムがいつ、どのように新しいタスクに効果的に転送できるかの条件の特性は不十分です。
ヒルバート空間での転送の幾何学的特性評価を導入し、凸船体内の補間、線形スパンへの外挿、およびスパン外の外挿:3種類の誘導転移を定義します。
3種類の転送すべてを達成するために、機能の理論エンコーダーに基づいた方法を提案します。
具体的には、最小二乗最適化を使用して関数エンコーダーの新しいトレーニングスキームを導入し、関数エンコーダの普遍的な近似定理を証明し、4つの多様なベンチマークでの変圧器やメタラーニングなどの既存のアプローチと包括的な比較を提供します。
私たちの実験は、関数エンコーダーが4つのベンチマークタスクと3種類の転送すべてで最先端の方法を上回ることを示しています。

要約(オリジナル)

A central challenge in transfer learning is designing algorithms that can quickly adapt and generalize to new tasks without retraining. Yet, the conditions of when and how algorithms can effectively transfer to new tasks is poorly characterized. We introduce a geometric characterization of transfer in Hilbert spaces and define three types of inductive transfer: interpolation within the convex hull, extrapolation to the linear span, and extrapolation outside the span. We propose a method grounded in the theory of function encoders to achieve all three types of transfer. Specifically, we introduce a novel training scheme for function encoders using least-squares optimization, prove a universal approximation theorem for function encoders, and provide a comprehensive comparison with existing approaches such as transformers and meta-learning on four diverse benchmarks. Our experiments demonstrate that the function encoder outperforms state-of-the-art methods on four benchmark tasks and on all three types of transfer.

arxiv情報

著者 Tyler Ingebrand,Adam J. Thorpe,Ufuk Topcu
発行日 2025-05-19 17:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Function Encoders: A Principled Approach to Transfer Learning in Hilbert Spaces はコメントを受け付けていません

Minimum-Excess-Work Guidance

要約

過剰な作業を最小限に抑えることにより、統計力学に根ざした概念と最適な輸送への強力な概念接続を伴う、事前に訓練された確率フロー生成モデル(継続的な正規化フローまたは拡散モデルなど)を導くための熱力学的作業に触発された正規化フレームワークを提案します。
当社のアプローチにより、科学的アプリケーションに共通するまばらなデータレジームでの効率的なガイダンスが可能になります。
2つの戦略を紹介します。ユーザー定義のサブセットに確率質量を集中させることにより、まれな遷移状態をサンプリングするためのパスガイダンスと、エントロピーを保存しながら生成された分布を実験的な観測可能性に合わせるための観察可能なガイダンスです。
粗粒のタンパク質モデルでのフレームワークの汎用性を実証し、折り畳まれた状態間の遷移構成をサンプリングし、実験データを使用して系統的バイアスを修正するように導きます。
このメソッドは、最新の生成アーキテクチャを備えた熱力学的原理を橋渡しし、データスカルスドメインの標準的な微調整に代わる原則的で効率的で物理学に触発された代替品を提供します。
経験的結果は、サンプルの効率とバイアスの低下の改善を強調し、分子シミュレーションおよびそれ以降の適用性を強調しています。

要約(オリジナル)

We propose a regularization framework inspired by thermodynamic work for guiding pre-trained probability flow generative models (e.g., continuous normalizing flows or diffusion models) by minimizing excess work, a concept rooted in statistical mechanics and with strong conceptual connections to optimal transport. Our approach enables efficient guidance in sparse-data regimes common to scientific applications, where only limited target samples or partial density constraints are available. We introduce two strategies: Path Guidance for sampling rare transition states by concentrating probability mass on user-defined subsets, and Observable Guidance for aligning generated distributions with experimental observables while preserving entropy. We demonstrate the framework’s versatility on a coarse-grained protein model, guiding it to sample transition configurations between folded/unfolded states and correct systematic biases using experimental data. The method bridges thermodynamic principles with modern generative architectures, offering a principled, efficient, and physics-inspired alternative to standard fine-tuning in data-scarce domains. Empirical results highlight improved sample efficiency and bias reduction, underscoring its applicability to molecular simulations and beyond.

arxiv情報

著者 Christopher Kolloff,Tobias Höppe,Emmanouil Angelis,Mathias Jacob Schreiner,Stefan Bauer,Andrea Dittadi,Simon Olsson
発行日 2025-05-19 17:19:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Minimum-Excess-Work Guidance はコメントを受け付けていません

Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation

要約

破損したデータから生成モデルを学習することは、特にクリーンデータへのアクセスが限られている、または高価な場合、科学分野全体で根本的でありながら持続的に挑戦的なタスクです。
スコア蒸留(DSD)\ Cite {Chen2025Denoising}は最近、騒々しい観察から直接高忠実度の生成モデルを訓練するためにスコアを活用する驚くほど効果的な戦略を導入しました。
この基盤の上に構築されて、\ TextIT {Restoration Score Distillation}(RSD)を提案します。これは、ぼやけ、不完全、または低解像度の画像など、より広範な腐敗タイプに対応するDSDの原則的な一般化です。
RSDは、最初に教師の拡散モデルを破損したデータのみで前提とし、その後、高品質の再構成を生成する単一ステップジェネレーターに蒸留することで動作します。
経験的には、RSDは、自然データセットと科学的データセットの両方で多様な修復タスク全体で教師モデルを一貫して上回ります。
さらに、標準的な拡散目標を超えて、RSDフレームワークは、アンビエントツーディー、アンビエント拡散、そのフーリエ空間バリアントなどのいくつかの腐敗認識トレーニング手法と互換性があり、拡散モデリングの最近の進歩と柔軟な統合を可能にします。
理論的には、線形レジームでは、RSDが線形測定からクリーンデータ共分散マトリックスの固有空間を回復し、それによって暗黙的な正規者として機能することを実証します。
この解釈は、スコアの蒸留をサンプリング加速手法としてだけでなく、重度に劣化したデータレジームで生成パフォーマンスを向上させるための原則的なアプローチとして再蒸留します。

要約(オリジナル)

Learning generative models from corrupted data is a fundamental yet persistently challenging task across scientific disciplines, particularly when access to clean data is limited or expensive. Denoising Score Distillation (DSD) \cite{chen2025denoising} recently introduced a novel and surprisingly effective strategy that leverages score distillation to train high-fidelity generative models directly from noisy observations. Building upon this foundation, we propose \textit{Restoration Score Distillation} (RSD), a principled generalization of DSD that accommodates a broader range of corruption types, such as blurred, incomplete, or low-resolution images. RSD operates by first pretraining a teacher diffusion model solely on corrupted data and subsequently distilling it into a single-step generator that produces high-quality reconstructions. Empirically, RSD consistently surpasses its teacher model across diverse restoration tasks on both natural and scientific datasets. Moreover, beyond standard diffusion objectives, the RSD framework is compatible with several corruption-aware training techniques such as Ambient Tweedie, Ambient Diffusion, and its Fourier-space variant, enabling flexible integration with recent advances in diffusion modeling. Theoretically, we demonstrate that in a linear regime, RSD recovers the eigenspace of the clean data covariance matrix from linear measurements, thereby serving as an implicit regularizer. This interpretation recasts score distillation not only as a sampling acceleration technique but as a principled approach to enhancing generative performance in severely degraded data regimes.

arxiv情報

著者 Yasi Zhang,Tianyu Chen,Zhendong Wang,Ying Nian Wu,Mingyuan Zhou,Oscar Leong
発行日 2025-05-19 17:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation はコメントを受け付けていません