Adjoint Sampling: Highly Scalable Diffusion Samplers via Adjoint Matching

要約

非正常密度またはエネルギー関数からサンプリングする拡散プロセスを学習するための非常にスケーラブルで効率的なアルゴリズムであるAdjointサンプリングを紹介します。
これは、エネルギー評価やモデルサンプルの数よりもはるかに勾配的な更新を可能にする最初のポリシーアプローチであり、同様の方法で以前に調査されたよりもはるかに大きな問題設定にスケーリングできるようにします。
私たちのフレームワークは、理論的には確率的最適制御に基づいており、サンプルがターゲット分布に向かってプッシュする是正措置を必要とせずに訓練することができる補間マッチングと同じ理論的保証を共有しています。
デカルト座標とねじれ座標の両方で分子をモデル化するために、主要な対称性と周期的境界条件を組み込む方法を示します。
古典的なエネルギー関数に関する広範な実験を通じて、私たちのアプローチの有効性を実証し、多くの分子システムで償却されたコンフォーマー生成を実行するニューラルネットワークベースのエネルギーモデルにさらに拡大します。
高度にスケーラブルなサンプリング方法の開発に関するさらなる研究を奨励するために、これらの挑戦的なベンチマークをオープンソースにすることを計画しています。

要約(オリジナル)

We introduce Adjoint Sampling, a highly scalable and efficient algorithm for learning diffusion processes that sample from unnormalized densities, or energy functions. It is the first on-policy approach that allows significantly more gradient updates than the number of energy evaluations and model samples, allowing us to scale to much larger problem settings than previously explored by similar methods. Our framework is theoretically grounded in stochastic optimal control and shares the same theoretical guarantees as Adjoint Matching, being able to train without the need for corrective measures that push samples towards the target distribution. We show how to incorporate key symmetries, as well as periodic boundary conditions, for modeling molecules in both cartesian and torsional coordinates. We demonstrate the effectiveness of our approach through extensive experiments on classical energy functions, and further scale up to neural network-based energy models where we perform amortized conformer generation across many molecular systems. To encourage further research in developing highly scalable sampling methods, we plan to open source these challenging benchmarks, where successful methods can directly impact progress in computational chemistry.

arxiv情報

著者 Aaron Havens,Benjamin Kurt Miller,Bing Yan,Carles Domingo-Enrich,Anuroop Sriram,Brandon Wood,Daniel Levine,Bin Hu,Brandon Amos,Brian Karrer,Xiang Fu,Guan-Horng Liu,Ricky T. Q. Chen
発行日 2025-04-18 15:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Babysit A Language Model From Scratch: Interactive Language Learning by Trials and Demonstrations

要約

人間は効率的な言語学習者であり、本質的に社会的な生き物です。
私たちの言語開発は、たとえば介護者からのデモとフィードバックなど、私たちの社会的相互作用によって大きく形成されています。
人間の言語学習とは反対に、最近の大規模な言語モデルの進歩は、主に非対話型トレーニングパラダイムを採用し、その後のフィードバックを通じて事前に訓練されたモデルを洗練しました。
この作業では、相互作用からの修正フィードバックが、系統的に制御された実験を介して、神経言語の獲得にゼロからどのように影響するかを探り、言語モデルの単語学習効率に貢献するかどうかを評価します。
学生の試験、教師のデモ、およびさまざまな発達段階での言語能力を条件とする報酬の3つの異なるコンポーネントを組み込んだ試行とデモンストレーション(TND)学習フレームワークを紹介します。
私たちの実験は、TNDアプローチが等しく少数のパラメーターの学生モデルの単語習得を加速することを明らかにし、試験とデモの両方の重要性を強調しています。
さらに、単語の教師の選択が生徒の単語固有の学習効率に影響を与え、試行における単語の頻度とそれぞれの学習曲線との間の強い相関関係によって、練習メイクの完璧な効果が明らかであることを示します。
私たちの調査結果は、教師のデモと積極的な試験を受けたインタラクティブな言語学習が、言語モデルの効率的な単語学習を促進できることを示唆しています。

要約(オリジナル)

Humans are efficient language learners and inherently social creatures. Our language development is largely shaped by our social interactions, for example, the demonstration and feedback from caregivers. Contrary to human language learning, recent advancements in large language models have primarily adopted a non-interactive training paradigm, and refined pre-trained models through feedback afterward. In this work, we explore how corrective feedback from interactions influences neural language acquisition from scratch through systematically controlled experiments, assessing whether it contributes to word learning efficiency in language models. We introduce a trial-and-demonstration (TnD) learning framework that incorporates three distinct components: student trials, teacher demonstrations, and a reward conditioned on language competence at various developmental stages. Our experiments reveal that the TnD approach accelerates word acquisition for student models of equal and smaller numbers of parameters, and we highlight the significance of both trials and demonstrations. We further show that the teacher’s choices of words influence students’ word-specific learning efficiency, and a practice-makes-perfect effect is evident by a strong correlation between the frequency of words in trials and their respective learning curves. Our findings suggest that interactive language learning, with teacher demonstrations and active trials, can facilitate efficient word learning in language models.

arxiv情報

著者 Ziqiao Ma,Zekun Wang,Joyce Chai
発行日 2025-04-18 16:06:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

DP2Unlearning: An Efficient and Guaranteed Unlearning Framework for LLMs

要約

大規模な言語モデル(LLM)は最近、言語処理タスクに革命をもたらしましたが、倫理的および法的問題ももたらしました。
LLMは、トレーニングデータに存在する潜在的にプライベートまたは著作権で保護された情報を記憶する傾向があり、その後、推論時にエンドユーザーに配信される可能性があります。
これが起こると、素朴な解決策は、望ましくないデータを除外した後、モデルをゼロから再編成することです。
これにより、ターゲットデータが忘れられていることが保証されていますが、LLMSにとっても非常に高価です。
概説の未解決は、望ましくない結果を防ぐために訓練されたモデル自体の事後修正で構成されているため、より効率的な代替手段を提供しますが、経験的証拠のみに依存しているため、忘れられた保証がありません。
この作業では、保持されるデータのゼロからの再トレーニングよりも大幅に低いコストで正式な忘却保証を提供する、新しいLLM解読フレームワークであるDP2Unlearningを提示します。
DP2Unlearningには、{\ epsilon}違いのプライバシー(DP)を使用して保護されたテキストデータでLLMSのトレーニングが含まれます。
私たちの実験は、DP2Unlearningが保持されたデータ(ゴールドスタンダードの正確な未学習)のゼロからのLLM再トレーニングと比較して、同様のモデルのパフォーマンス後のパフォーマンスを達成していることを示していますが、約半分の未解決のコストです。
さらに、合理的な計算コストで、モデルの有効性を維持し、ターゲット情報を効果的に忘れて、ターゲット情報を効果的に忘れることの両方で、おおよその学習方法よりも優れています。

要約(オリジナル)

Large language models (LLMs) have recently revolutionized language processing tasks but have also brought ethical and legal issues. LLMs have a tendency to memorize potentially private or copyrighted information present in the training data, which might then be delivered to end users at inference time. When this happens, a naive solution is to retrain the model from scratch after excluding the undesired data. Although this guarantees that the target data have been forgotten, it is also prohibitively expensive for LLMs. Approximate unlearning offers a more efficient alternative, as it consists of ex post modifications of the trained model itself to prevent undesirable results, but it lacks forgetting guarantees because it relies solely on empirical evidence. In this work, we present DP2Unlearning, a novel LLM unlearning framework that offers formal forgetting guarantees at a significantly lower cost than retraining from scratch on the data to be retained. DP2Unlearning involves training LLMs on textual data protected using {\epsilon}-differential privacy (DP), which later enables efficient unlearning with the guarantees against disclosure associated with the chosen {\epsilon}. Our experiments demonstrate that DP2Unlearning achieves similar model performance post-unlearning, compared to an LLM retraining from scratch on retained data — the gold standard exact unlearning — but at approximately half the unlearning cost. In addition, with a reasonable computational cost, it outperforms approximate unlearning methods at both preserving the utility of the model post-unlearning and effectively forgetting the targeted information.

arxiv情報

著者 Tamim Al Mahmud,Najeeb Jebreel,Josep Domingo-Ferrer,David Sanchez
発行日 2025-04-18 16:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Probabilistic Stability Guarantees for Feature Attributions

要約

安定性保証は、機能の属性を評価するための新たなツールですが、既存の認証方法は平滑化された分類器に依存し、しばしば保守的な保証を得ることがよくあります。
これらの制限に対処するために、ソフトの安定性を導入し、任意の帰属に対して非自明で解釈可能な保証を提供する、シンプルでモデルに依存しない、サンプル効率の高い安定性認証アルゴリズム(SCA)を提案します。
さらに、軽度の平滑化により、より積極的な妥協を必要とする事前の認証方法とは対照的に、精度と安定性の間の優雅なトレードオフを可能にすることを示します。
ブール関数解析を使用して、平滑化下での安定性の新しい特性評価を与えます。
視覚と言語のタスクに関するSCAを評価し、説明方法の堅牢性を測定する際のソフト安定性の有効性を実証します。

要約(オリジナル)

Stability guarantees are an emerging tool for evaluating feature attributions, but existing certification methods rely on smoothed classifiers and often yield conservative guarantees. To address these limitations, we introduce soft stability and propose a simple, model-agnostic, and sample-efficient stability certification algorithm (SCA) that provides non-trivial and interpretable guarantees for any attribution. Moreover, we show that mild smoothing enables a graceful tradeoff between accuracy and stability, in contrast to prior certification methods that require a more aggressive compromise. Using Boolean function analysis, we give a novel characterization of stability under smoothing. We evaluate SCA on vision and language tasks, and demonstrate the effectiveness of soft stability in measuring the robustness of explanation methods.

arxiv情報

著者 Helen Jin,Anton Xue,Weiqiu You,Surbhi Goel,Eric Wong
発行日 2025-04-18 16:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Collective Learning Mechanism based Optimal Transport Generative Adversarial Network for Non-parallel Voice Conversion

要約

画像合成に大きな成功を示した後、生成敵対的ネットワーク(GAN)モデルは同様に、音声合成の分野で大きな進歩を遂げ、敵対的な学習プロセスを通じてターゲットデータの正確な分布を適応させる能力を活用しています。
特に、最先端の(SOTA)GANベースの音声変換(VC)モデルの領域では、実際の音声サンプルとGAN生成された音声サンプルの間の自然性にかなりの格差が存在します。
さらに、多くのGANモデルは現在、単一のジェネレーターの識別子学習アプローチで動作していますが、ターゲットデータ分布の最適化は、単一のジェネレーターマルチ分類学習スキームを通じてより効果的に達成可能です。
したがって、この研究では、深い畳み込みニューラルネットワーク(DCNN)モデル、ビジョントランス(VIT)、およびコンフォーマーを含む複数の判別器を組み込んだ、集合学習メカニズムベースの最適輸送GAN(Clot-Gan)モデルという名前の新しいGANモデルを紹介します。
さまざまな判別器を統合する目的は、集合的な学習メカニズムによって促進されるメルスペクトルグラムの形式分布を理解する能力にあります。
同時に、最適な輸送(OT)損失を含めることは、OT理論の原則を使用して、ソースとターゲットのデータ分布の間のギャップを正確に埋めることを目的としています。
VCC 2018、VCTK、およびCMU-ARCTICデータセットの実験的検証は、Clot-Gan-VCモデルが客観的および主観的評価で既存のVCモデルを上回ることを確認しています。

要約(オリジナル)

After demonstrating significant success in image synthesis, Generative Adversarial Network (GAN) models have likewise made significant progress in the field of speech synthesis, leveraging their capacity to adapt the precise distribution of target data through adversarial learning processes. Notably, in the realm of State-Of-The-Art (SOTA) GAN-based Voice Conversion (VC) models, there exists a substantial disparity in naturalness between real and GAN-generated speech samples. Furthermore, while many GAN models currently operate on a single generator discriminator learning approach, optimizing target data distribution is more effectively achievable through a single generator multi-discriminator learning scheme. Hence, this study introduces a novel GAN model named Collective Learning Mechanism-based Optimal Transport GAN (CLOT-GAN) model, incorporating multiple discriminators, including the Deep Convolutional Neural Network (DCNN) model, Vision Transformer (ViT), and conformer. The objective of integrating various discriminators lies in their ability to comprehend the formant distribution of mel-spectrograms, facilitated by a collective learning mechanism. Simultaneously, the inclusion of Optimal Transport (OT) loss aims to precisely bridge the gap between the source and target data distribution, employing the principles of OT theory. The experimental validation on VCC 2018, VCTK, and CMU-Arctic datasets confirms that the CLOT-GAN-VC model outperforms existing VC models in objective and subjective assessments.

arxiv情報

著者 Sandipan Dhar,Md. Tousin Akhter,Nanda Dulal Jana,Swagatam Das
発行日 2025-04-18 16:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | コメントする

Meta-Learning and Knowledge Discovery based Physics-Informed Neural Network for Remaining Useful Life Prediction

要約

回転機械の残りの耐用年数(RUL)を予測することは、産業の安全性とメンテナンスにとって重要ですが、既存の方法は希少な標的ドメインデータと不明確な劣化ダイナミクスと闘っています。
これらの課題に対処するために、メタ学習および知識発見に基づく物理学に基づいた神経ネットワーク(MKDPINN)を提案します。
このメソッドは、最初に、非表示の状態マッパー(HSM)を介して低次元の隠れた状態空間にノイズの多いセンサーデータをマップします。
物理誘導レギュレーター(PGR)は、分解の進化を支配する未知の非線形PDESを学習し、これらの物理的制約をPINNフレームワークに埋め込みます。
これにより、データ駆動型および物理ベースのアプローチが統合されます。
このフレームワークでは、メタラーニングを使用して、ソースドメインメタタスク全体で最適化して、新しいターゲットタスクへの少数のショット適応を可能にします。
産業データとC-Mapssベンチマークに関する実験は、Mkdpinnが一般化と精度のベースラインを上回ることを示しており、データ不足の下でのRUL予測の有効性を証明しています

要約(オリジナル)

Predicting the remaining useful life (RUL) of rotating machinery is critical for industrial safety and maintenance, but existing methods struggle with scarce target-domain data and unclear degradation dynamics. We propose a Meta-Learning and Knowledge Discovery-based Physics-Informed Neural Network (MKDPINN) to address these challenges. The method first maps noisy sensor data to a low-dimensional hidden state space via a Hidden State Mapper (HSM). A Physics-Guided Regulator (PGR) then learns unknown nonlinear PDEs governing degradation evolution, embedding these physical constraints into the PINN framework. This integrates data-driven and physics-based approaches. The framework uses meta-learning, optimizing across source-domain meta-tasks to enable few-shot adaptation to new target tasks. Experiments on industrial data and the C-MAPSS benchmark show MKDPINN outperforms baselines in generalization and accuracy, proving its effectiveness for RUL prediction under data scarcity

arxiv情報

著者 Yu Wang,Shujie Liu,Shuai Lv,Gengshuo Liu
発行日 2025-04-18 16:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Imitation Learning with Precisely Labeled Human Demonstrations

要約

模倣学習パラダイム内では、トレーニングジェネラリストロボットには、多様なキュレーションによってのみ取得できる大規模なデータセットが必要です。
収集が比較的容易なため、適切に組み込まれた場合、人間のデモは貴重な追加になります。
ただし、人間のデモを利用する既存の方法は、正確なアクションの推測、具体化のギャップを改善し、フロンティアジェネラリストのロボットトレーニングパイプラインと融合する際に課題に直面しています。
この作業では、効率的なデータ収集のためにハンドヘルドグリッパーを使用することの実行可能性を実証する以前の研究に基づいて、グリッパーの外観に対するユーザーの制御を活用します。特に、ユニークで簡単にセグメント可能な色を割り当てることにより – ランサックおよびICP登録法のシンプルで信頼できるアプリケーションを正確にエンドエフェクターポーズ推定に加えます。
シミュレーションでは、独自の人間のデモンストレーションが正確にラベル付けされたことで、ポリシーがロボットデモンストレーションの使用のパフォーマンスの平均88.1%に達し、固有の具体化ギャップにもかかわらず、ロボットのデモンストレーションと組み合わせるとポリシーのパフォーマンスを高めることができることを示しています。

要約(オリジナル)

Within the imitation learning paradigm, training generalist robots requires large-scale datasets obtainable only through diverse curation. Due to the relative ease to collect, human demonstrations constitute a valuable addition when incorporated appropriately. However, existing methods utilizing human demonstrations face challenges in inferring precise actions, ameliorating embodiment gaps, and fusing with frontier generalist robot training pipelines. In this work, building on prior studies that demonstrate the viability of using hand-held grippers for efficient data collection, we leverage the user’s control over the gripper’s appearance–specifically by assigning it a unique, easily segmentable color–to enable simple and reliable application of the RANSAC and ICP registration method for precise end-effector pose estimation. We show in simulation that precisely labeled human demonstrations on their own allow policies to reach on average 88.1% of the performance of using robot demonstrations, and boost policy performance when combined with robot demonstrations, despite the inherent embodiment gap.

arxiv情報

著者 Yilong Song
発行日 2025-04-18 17:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Near-optimal algorithms for private estimation and sequential testing of collision probability

要約

多くの科学分野で広く使用されている離散分布の拡散の基本的な尺度である、\ emphing {衝突確率}を推定およびテストするための新しいアルゴリズムを提示します。
$(\ alpha、\ beta)$を満たすアルゴリズムについて説明します。$ \ tilde {o} \ left(\ log(1/\ beta)} {\ alpha^2 \ 2 \ epsilon^2} \ pha^2 \ 2 \ 2 \ pha^2 \ pha^frac {\ log(1/\ beta)}を使用して、$ \ tilde {o}を使用して$ \ epsilon $を最大で$ \ epsilon $で推定する衝突確率を推定するアルゴリズムについて説明します。
\ le 1 $。これは、以前の作業で$ \ frac {1} {\ alpha^2} $の係数で改善します。
また、衝突確率のためのシーケンシャルテストアルゴリズムも提示します。これは、$ \ tilde {o}(\ frac {1} {\ epsilon^2})$サンプルを使用して$ \ epsilon $で区切られる衝突確率値を区別できます。
私たちのアルゴリズムにはほぼ最適なサンプルの複雑さがあり、実験では、以前の方法よりも大幅に少ないサンプルが必要であることが示されています。

要約(オリジナル)

We present new algorithms for estimating and testing \emph{collision probability}, a fundamental measure of the spread of a discrete distribution that is widely used in many scientific fields. We describe an algorithm that satisfies $(\alpha, \beta)$-local differential privacy and estimates collision probability with error at most $\epsilon$ using $\tilde{O}\left(\frac{\log(1/\beta)}{\alpha^2 \epsilon^2}\right)$ samples for $\alpha \le 1$, which improves over previous work by a factor of $\frac{1}{\alpha^2}$. We also present a sequential testing algorithm for collision probability, which can distinguish between collision probability values that are separated by $\epsilon$ using $\tilde{O}(\frac{1}{\epsilon^2})$ samples, even when $\epsilon$ is unknown. Our algorithms have nearly the optimal sample complexity, and in experiments we show that they require significantly fewer samples than previous methods.

arxiv情報

著者 Robert Busa-Fekete,Umar Syed
発行日 2025-04-18 17:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | コメントする

Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning

要約

強化学習(RL)は、大規模な言語モデルの推論能力を強化するための強力なパラダイムとして浮上していますが、計算とメモリの要件の基本的な非対称性に直面しています。推論は最小メモリフットプリントと恥ずかしく並行していますが、ポリシーの更新には広範な同期が必要であり、メモリが印象的です。
この非対称性に対処するために、ポッド(ダウンサンプリングによるポリシーの最適化)を導入します。これは、並行して多数のロールアウトを生成するが、有益なサブセットでのみ更新することにより、これらのフェーズを戦略的に分離するフレームワークです。
このフレームワーク内で、Max-Variance Down-Samplingを開発します。これは、最大多様な報酬信号でロールアウトを選択する理論的に動機付けられた方法です。
このアプローチには効率的なアルゴリズムソリューションがあることを証明し、Max-Varianceのダウンサンプリングを使用してポッドを備えたGRPOがGSM8Kベンチマーク上の標準GRPOよりも優れたパフォーマンスを達成することを経験的に実証します。

要約(オリジナル)

Reinforcement learning (RL) has emerged as a powerful paradigm for enhancing reasoning capabilities in large language models, but faces a fundamental asymmetry in computation and memory requirements: inference is embarrassingly parallel with a minimal memory footprint, while policy updates require extensive synchronization and are memory-intensive. To address this asymmetry, we introduce PODS (Policy Optimization with Down-Sampling), a framework that strategically decouples these phases by generating numerous rollouts in parallel but updating only on an informative subset. Within this framework, we develop max-variance down-sampling, a theoretically motivated method that selects rollouts with maximally diverse reward signals. We prove that this approach has an efficient algorithmic solution, and empirically demonstrate that GRPO with PODS using max-variance down-sampling achieves superior performance over standard GRPO on the GSM8K benchmark.

arxiv情報

著者 Yixuan Even Xu,Yash Savani,Fei Fang,Zico Kolter
発行日 2025-04-18 17:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Parameter-Efficient Continual Fine-Tuning: A Survey

要約

大規模な事前に訓練されたネットワークの出現により、AIフィールドに革命をもたらし、新しい可能性のロックを解除し、前例のないパフォーマンスを達成しました。
ただし、これらのモデルは、従来の機械学習アプローチから基本的な制限を継承します。\ textit {i.i.d。}の仮定への強い依存性は、動的学習シナリオへの適応性を妨げます。
AIの次のブレークスルーは、新しいデータとタスクが順番に到着する現実世界などの進化する環境への効率的な適応を可能にすることにあると考えています。
この課題は、生涯学習ニューラルモデルの開発に焦点を当てた機械学習パラダイムである継続学習分野(CL)を定義しています。
これらの大規模モデルを効率的に適応させるための1つの代替手段は、パラメーター効率の高い微調整(PEFT)です。
これらの方法は、小さく効率的な変更を実行することにより、モデルを特定のデータまたはシナリオに適応させる問題に取り組み、完全な微調整と同様のパフォーマンスを達成します。
ただし、これらの手法は、壊滅的な忘却の問題に苦しむため、モデルを複数のタスクに継続的に調整する能力を依然として欠いています。
この調査では、最初に、パラメーター効率の高い継続的な微調整(PECFT)で最先端の最先端をレビューする前に、CLアルゴリズムとPEFTメソッドの概要を説明します。
さまざまなアプローチを調べ、評価メトリックについて議論し、潜在的な将来の研究の方向性を調査します。
私たちの目標は、CLとパラメーター効率の高い微調整の相乗効果を強調し、この分野の研究者をガイドし、新しい将来の研究の方向性への道を開くことです。

要約(オリジナル)

The emergence of large pre-trained networks has revolutionized the AI field, unlocking new possibilities and achieving unprecedented performance. However, these models inherit a fundamental limitation from traditional Machine Learning approaches: their strong dependence on the \textit{i.i.d.} assumption hinders their adaptability to dynamic learning scenarios. We believe the next breakthrough in AI lies in enabling efficient adaptation to evolving environments — such as the real world — where new data and tasks arrive sequentially. This challenge defines the field of Continual Learning (CL), a Machine Learning paradigm focused on developing lifelong learning neural models. One alternative to efficiently adapt these large-scale models is known Parameter-Efficient Fine-Tuning (PEFT). These methods tackle the issue of adapting the model to a particular data or scenario by performing small and efficient modifications, achieving similar performance to full fine-tuning. However, these techniques still lack the ability to adjust the model to multiple tasks continually, as they suffer from the issue of Catastrophic Forgetting. In this survey, we first provide an overview of CL algorithms and PEFT methods before reviewing the state-of-the-art on Parameter-Efficient Continual Fine-Tuning (PECFT). We examine various approaches, discuss evaluation metrics, and explore potential future research directions. Our goal is to highlight the synergy between CL and Parameter-Efficient Fine-Tuning, guide researchers in this field, and pave the way for novel future research directions.

arxiv情報

著者 Eric Nuertey Coleman,Luigi Quarantiello,Ziyue Liu,Qinwen Yang,Samrat Mukherjee,Julio Hurtado,Vincenzo Lomonaco
発行日 2025-04-18 17:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする