Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation

要約

本論文では、一定のステップサイズを持つ確率的勾配降下(SGD)アルゴリズムを用いて、強く凸で滑らかな最小化問題を解く問題を扱う。これまでの研究では、SGDの漸近的なバイアスを軽減するために、Polyak-Ruppert平均化手続きとRichardson-Romberg外挿を組み合わせることが提案されているが、その代償として分散が若干増加する。我々は、結果の推定量の平均二乗誤差の反復回数$n$に対する拡張を提供することにより、これまでの結果を大幅に拡張する。最小最適漸近共分散行列に明示的に依存する$mathcal{O}(n^{-1/2})$の一次項と、$3/4$乗が最もよく知られている$mathcal{O}(n^{-3/4})$の二次項である。また、この結果を高次のモーメント境界に拡張する。我々の解析は、SGD反復を時間均質マルコフ連鎖として見たときの性質に依存している。特に、この連鎖が、適切に定義された重み付きWasserstein半準量に関して幾何学的にエルゴードであることを証明する。

要約(オリジナル)

We address the problem of solving strongly convex and smooth minimization problems using stochastic gradient descent (SGD) algorithm with a constant step size. Previous works suggested to combine the Polyak-Ruppert averaging procedure with the Richardson-Romberg extrapolation to reduce the asymptotic bias of SGD at the expense of a mild increase of the variance. We significantly extend previous results by providing an expansion of the mean-squared error of the resulting estimator with respect to the number of iterations $n$. We show that the root mean-squared error can be decomposed into the sum of two terms: a leading one of order $\mathcal{O}(n^{-1/2})$ with explicit dependence on a minimax-optimal asymptotic covariance matrix, and a second-order term of order $\mathcal{O}(n^{-3/4})$, where the power $3/4$ is best known. We also extend this result to the higher-order moment bounds. Our analysis relies on the properties of the SGD iterates viewed as a time-homogeneous Markov chain. In particular, we establish that this chain is geometrically ergodic with respect to a suitably defined weighted Wasserstein semimetric.

arxiv情報

著者 Marina Sheshukova,Denis Belomestny,Alain Durmus,Eric Moulines,Alexey Naumov,Sergey Samsonov
発行日 2025-03-03 13:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 62L20, 93E35, cs.LG, math.OC, stat.ML | Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation はコメントを受け付けていません

Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization

要約

生成フローネットワーク(GFlowNets)は、与えられた報酬関数に比例した確率でオブジェクトをサンプリングすることを学習する生成モデルのファミリーである。GFlowNetsのキーコンセプトは、2つの確率的ポリシー、すなわち、構成オブジェクトを漸進的に構築するフォワードポリシーと、それらを順次分解するバックワードポリシーを用いることである。最近の結果は、GFlowNetの学習と、特定の報酬設計を持つエントロピー正則化強化学習(RL)問題との間に密接な関係があることを示している。しかし、この関係は固定的な後方政策の設定においてのみ適用される。この問題を解決するために、我々は、エントロピー正則化マルコフ決定過程(MDP)における中間報酬上の価値関数を直接最大化する、単純な後方政策最適化アルゴリズムを導入する。RLとGFlowNetアルゴリズムの両方と組み合わせた、様々なベンチマークにおける提案アプローチの広範な実験的評価を行い、複雑な環境におけるより速い収束とモード発見を実証する。

要約(オリジナル)

Generative Flow Networks (GFlowNets) are a family of generative models that learn to sample objects with probabilities proportional to a given reward function. The key concept behind GFlowNets is the use of two stochastic policies: a forward policy, which incrementally constructs compositional objects, and a backward policy, which sequentially deconstructs them. Recent results show a close relationship between GFlowNet training and entropy-regularized reinforcement learning (RL) problems with a particular reward design. However, this connection applies only in the setting of a fixed backward policy, which might be a significant limitation. As a remedy to this problem, we introduce a simple backward policy optimization algorithm that involves direct maximization of the value function in an entropy-regularized Markov Decision Process (MDP) over intermediate rewards. We provide an extensive experimental evaluation of the proposed approach across various benchmarks in combination with both RL and GFlowNet algorithms and demonstrate its faster convergence and mode discovery in complex environments.

arxiv情報

著者 Timofei Gritsaev,Nikita Morozov,Sergey Samsonov,Daniil Tiapkin
発行日 2025-03-03 14:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization はコメントを受け付けていません

Enhancing Fairness in Unsupervised Graph Anomaly Detection through Disentanglement

要約

グラフ異常検知(GAD)は、金融詐欺の検知からフェイクニュースの検知に至るまで、様々なアプリケーションにおいてますます重要性を増している。しかし、現在のGAD手法は、センシティブな属性(例えば、性別、宗教、民族性など)で定義された特定の人口統計学的グループに偏った差別的な決定をもたらす可能性のある公平性の問題をほとんど見落としている。このことは、社会的・倫理的制約に照らして、実世界のシナリオにおけるこれらの手法の適用性を大きく制限する。この重大なギャップに対処するため、我々はGADの意思決定において公平性と効用を統合する初めての試みを行う。具体的には、DEFENDと名付けられた、帰属グラフ上の新しいDisEntangleベースのFairnEss-aware aNomaly Detectionフレームワークを考案する。DEFENDはまず、GNNに異分離を導入することで、有益でありながら敏感な関連性のないノード表現を捕捉し、グラフ表現学習に内在する社会的バイアスを効果的に低減する。さらに、異常ノードを評価する際の差別的バイアスを緩和するために、DEFENDは再構築ベースの異常検出を採用し、グラフ構造を取り入れることなくノードの属性のみに集中する。さらに、入力属性とセンシティブ属性の間の固有の関連性を考慮し、DEFENDは再構成誤差と予測されたセンシティブ属性との間の相関を制約する。実世界のデータセットを用いた我々の実証評価により、DEFENDはGADにおいて効果的に動作し、最先端のベースラインと比較して公平性を大幅に向上させることが明らかになった。再現性を促進するために、我々のコードはhttps://github.com/AhaChang/DEFEND。

要約(オリジナル)

Graph anomaly detection (GAD) is increasingly crucial in various applications, ranging from financial fraud detection to fake news detection. However, current GAD methods largely overlook the fairness problem, which might result in discriminatory decisions skewed toward certain demographic groups defined on sensitive attributes (e.g., gender, religion, ethnicity, etc.). This greatly limits the applicability of these methods in real-world scenarios in light of societal and ethical restrictions. To address this critical gap, we make the first attempt to integrate fairness with utility in GAD decision-making. Specifically, we devise a novel DisEntangle-based FairnEss-aware aNomaly Detection framework on the attributed graph, named DEFEND. DEFEND first introduces disentanglement in GNNs to capture informative yet sensitive-irrelevant node representations, effectively reducing societal bias inherent in graph representation learning. Besides, to alleviate discriminatory bias in evaluating anomalous nodes, DEFEND adopts a reconstruction-based anomaly detection, which concentrates solely on node attributes without incorporating any graph structure. Additionally, given the inherent association between input and sensitive attributes, DEFEND constrains the correlation between the reconstruction error and the predicted sensitive attributes. Our empirical evaluations on real-world datasets reveal that DEFEND performs effectively in GAD and significantly enhances fairness compared to state-of-the-art baselines. To foster reproducibility, our code is available at https://github.com/AhaChang/DEFEND.

arxiv情報

著者 Wenjing Chang,Kay Liu,Philip S. Yu,Jianjun Yu
発行日 2025-03-03 14:14:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CY, cs.LG, cs.SI | Enhancing Fairness in Unsupervised Graph Anomaly Detection through Disentanglement はコメントを受け付けていません

Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen

要約

シングルセルRNA-seqデータの生成的モデリングは、軌跡推論、バッチ効果の除去、現実的な細胞データのシミュレーションなどのタスクに不可欠である。しかし、ノイズから合成単一細胞をシミュレートする最近のディープジェネレーティブモデルは、単一細胞データの離散的性質を見落とし、事前に処理された連続的な遺伝子発現近似値で動作するため、その有効性が制限され、ロバストなノイズモデルの組み込みを妨げている。さらに、細胞データの制御可能なマルチモーダルおよびマルチラベル生成のような側面は、未解明のままである。本研究では、フローベースの条件付き生成モデルであるCellFlow for Generation (CFGen)を導入し、シングルセルデータ固有の離散性を保持する。CFGenは、全ゲノムマルチモーダルシングルセルデータを確実に生成し、重要な生物学的データ特性の回復を改善すると同時に、希少細胞タイプの増強やバッチ補正などの関連する生成タスクに取り組む。また、Flow Matchingを用いた構成データ生成のための新しいフレームワークも紹介する。多様な生物学的データセットと設定におけるCFGenを紹介することで、計算生物学と深層生成モデルの分野におけるCFGenの価値を実証する。

要約(オリジナル)

Generative modeling of single-cell RNA-seq data is crucial for tasks like trajectory inference, batch effect removal, and simulation of realistic cellular data. However, recent deep generative models simulating synthetic single cells from noise operate on pre-processed continuous gene expression approximations, overlooking the discrete nature of single-cell data, which limits their effectiveness and hinders the incorporation of robust noise models. Additionally, aspects like controllable multi-modal and multi-label generation of cellular data remain underexplored. This work introduces CellFlow for Generation (CFGen), a flow-based conditional generative model that preserves the inherent discreteness of single-cell data. CFGen generates whole-genome multi-modal single-cell data reliably, improving the recovery of crucial biological data characteristics while tackling relevant generative tasks such as rare cell type augmentation and batch correction. We also introduce a novel framework for compositional data generation using Flow Matching. By showcasing CFGen on a diverse set of biological datasets and settings, we provide evidence of its value to the fields of computational biology and deep generative models.

arxiv情報

著者 Alessandro Palma,Till Richter,Hanyi Zhang,Manuel Lubetzki,Alexander Tong,Andrea Dittadi,Fabian Theis
発行日 2025-03-03 14:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, q-bio.GN, q-bio.QM | Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen はコメントを受け付けていません

Using High-Level Patterns to Estimate How Humans Predict a Robot will Behave

要約

ロボットに接する人間は、ロボットが次に何をするか予測することが多い。例えば、自律走行車の最近の挙動に基づいて、近くにいる人間のドライバーが、自律走行車は同じ車線を走行し続けるだろうと予測するかもしれない。ロボットが人間の予測を理解することは、安全でシームレスな相互作用のために重要である。例えば、もし自律走行車が、人間は合流しないと考えているが自律走行車は実際に合流するつもりだと知っていれば、自律走行車は事故を防ぐために行動を調整することができる。先行研究は通常、人間がロボットの行動を正確に予測することを前提としている。しかし、人間-人間の予測に関する最近の研究は、その逆を示唆している:人間は、高レベルの行動を予測することによって、他のエージェントを近似する傾向がある。我々はこの発見を応用し、人間がロボットの行動をどのように予測するかをロボットが推定できるようにする2次心の理論アプローチを開発する。これらのハイレベルな予測をデータから直接抽出するために、我々は最近の人間とロボットの軌跡を離散的な潜在空間に埋め込む。この潜在空間の各要素は、異なるタイプの行動(例えば、人間の前に合流する、同じ車線に留まる)を捉え、基礎となる行動タイプと一致する状態空間を横切るベクトル場にデコードする。我々は、ロボットの行動に関する高レベルおよびコースの予測が、実際の人間の予測に対応すると仮定する。我々は、概念実証シミュレーション、実際のユーザーの予測に対する我々の手法のテスト、および実世界の対話型運転データセットに対する実験を通して、この仮説を支持する最初の証拠を提供する。

要約(オリジナル)

Humans interacting with robots often form predictions of what the robot will do next. For instance, based on the recent behavior of an autonomous car, a nearby human driver might predict that the car is going to remain in the same lane. It is important for the robot to understand the human’s prediction for safe and seamless interaction: e.g., if the autonomous car knows the human thinks it is not merging — but the autonomous car actually intends to merge — then the car can adjust its behavior to prevent an accident. Prior works typically assume that humans make precise predictions of robot behavior. However, recent research on human-human prediction suggests the opposite: humans tend to approximate other agents by predicting their high-level behaviors. We apply this finding to develop a second-order theory of mind approach that enables robots to estimate how humans predict they will behave. To extract these high-level predictions directly from data, we embed the recent human and robot trajectories into a discrete latent space. Each element of this latent space captures a different type of behavior (e.g., merging in front of the human, remaining in the same lane) and decodes into a vector field across the state space that is consistent with the underlying behavior type. We hypothesize that our resulting high-level and course predictions of robot behavior will correspond to actual human predictions. We provide initial evidence in support of this hypothesis through proof-of-concept simulations, testing our method’s predictions against those of real users, and experiments on a real-world interactive driving dataset.

arxiv情報

著者 Sagar Parekh,Lauren Bramblett,Nicola Bezzo,Dylan P. Losey
発行日 2025-03-03 14:40:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO | Using High-Level Patterns to Estimate How Humans Predict a Robot will Behave はコメントを受け付けていません

Preconditioned Inexact Stochastic ADMM for Deep Model

要約

近年、基礎モデル(FM)の進歩はパラダイムシフトをもたらし、世界中の様々な分野に革命をもたらしている。このようなモデルの学習に使用される一般的なオプティマイザは、確率的勾配降下ベースのアルゴリズムであり、収束の遅さや収束のための厳しい仮定といった固有の限界に直面している。特に、分散環境から生じるデータの不均一性は、その理論的・数値的性能に大きな課題をもたらす。本論文では、スケーラブルな並列計算を可能にし、様々なセカンドモーメント方式をサポートするアルゴリズム、PISA({P}preconditioned {I}nexact {S}tochastic {A}lternating Direction Method of Multipliers)を開発する。厳密な理論的保証に基づくこのアルゴリズムは、勾配のリプシッツ連続性のみの仮定で収束するため、確率的手法で一般的に課される他の条件を必要としない。この能力により、PISAはデータの不均一性という課題に効果的に取り組むことができる。視覚モデル、大規模言語モデル、強化学習モデル、生成的敵対ネットワーク、リカレント・ニューラル・ネットワークなど、多様なFMの学習や微調整のための包括的な実験評価により、様々な最先端のオプティマイザと比較して、その優れた数値性能が実証されている。

要約(オリジナル)

The recent advancement of foundation models (FMs) has brought about a paradigm shift, revolutionizing various sectors worldwide. The popular optimizers used to train these models are stochastic gradient descent-based algorithms, which face inherent limitations, such as slow convergence and stringent assumptions for convergence. In particular, data heterogeneity arising from distributed settings poses significant challenges to their theoretical and numerical performance. This paper develops an algorithm, PISA ({P}reconditioned {I}nexact {S}tochastic {A}lternating Direction Method of Multipliers), which enables scalable parallel computing and supports various second-moment schemes. Grounded in rigorous theoretical guarantees, the algorithm converges under the sole assumption of Lipschitz continuity of the gradient, thereby removing the need for other conditions commonly imposed by stochastic methods. This capability enables PISA to tackle the challenge of data heterogeneity effectively. Comprehensive experimental evaluations for training or fine-tuning diverse FMs, including vision models, large language models, reinforcement learning models, generative adversarial networks, and recurrent neural networks, demonstrate its superior numerical performance compared to various state-of-the-art optimizers.

arxiv情報

著者 Shenglong Zhou,Ouya Wang,Ziyan Luo,Yongxu Zhu,Geoffrey Ye Li
発行日 2025-03-03 15:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Preconditioned Inexact Stochastic ADMM for Deep Model はコメントを受け付けていません

Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond

要約

深層学習における多目的最適化(MOO)は、複数の相反する目的を同時に最適化することを目的としており、マルチタスク学習や多基準学習などの分野で頻繁に遭遇する課題である。近年の勾配ベースのMOO手法の進歩により、単一のバランスの取れた解から有限あるいは無限のパレート集合まで、ユーザーのニーズに合わせた多様なタイプの解の発見が可能になった。これらの開発は、強化学習、コンピュータビジョン、推薦システム、大規模言語モデルなどの領域で幅広く応用されている。本サーベイでは、深層学習における勾配ベースのMOOについて、アルゴリズム、理論、実用的なアプリケーションを網羅した初の包括的なレビューを提供する。様々なアプローチを統一し、重要な課題を特定することで、この進化する分野におけるイノベーションを推進するための基礎的なリソースとして役立つ。深層学習におけるMOOアルゴリズムの包括的なリストは、https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning。

要約(オリジナル)

Multi-objective optimization (MOO) in deep learning aims to simultaneously optimize multiple conflicting objectives, a challenge frequently encountered in areas like multi-task learning and multi-criteria learning. Recent advancements in gradient-based MOO methods have enabled the discovery of diverse types of solutions, ranging from a single balanced solution to finite or even infinite Pareto sets, tailored to user needs. These developments have broad applications across domains such as reinforcement learning, computer vision, recommendation systems, and large language models. This survey provides the first comprehensive review of gradient-based MOO in deep learning, covering algorithms, theories, and practical applications. By unifying various approaches and identifying critical challenges, it serves as a foundational resource for driving innovation in this evolving field. A comprehensive list of MOO algorithms in deep learning is available at https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning.

arxiv情報

著者 Weiyu Chen,Xiaoyuan Zhang,Baijiong Lin,Xi Lin,Han Zhao,Qingfu Zhang,James T. Kwok
発行日 2025-03-03 15:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML | Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond はコメントを受け付けていません

Langevin Multiplicative Weights Update with Applications in Polynomial Portfolio Management

要約

本論文では,非凸最適化問題をシンプレックス(より一般的には,シンプレックスの積)上で考える.本論文では、非ユークリッド幾何に対応するノイズをシンプレクスに加えることで、大域的最適化問題を解くためのアルゴリズム、Langevin Multiplicative Weights Update (LMWU)を提供する。非凸最適化は、ニューラルネットワークの近似やナッシュ均衡の発見など、様々な場面で応用されているため、機械学習コミュニティで広く研究されている。最近、鞍点からの脱出と回避(局所極小への収束)の証明可能な保証や、制約のないランジュバン勾配に基づく手法の大域的収束に関する研究が進んでいるにもかかわらず、制約を伴う大域的最適化に関する研究は少ない。我々は、LMWUアルゴリズムが非漸近的収束解析により、内部の大域的極小値に収束することを証明する。非線形性の高い目的関数の最適化が重要な役割を果たす多項式ポートフォリオ管理の実データを用いて、提案アルゴリズムの効率性を検証する。

要約(オリジナル)

We consider nonconvex optimization problem over simplex, and more generally, a product of simplices. We provide an algorithm, Langevin Multiplicative Weights Update (LMWU) for solving global optimization problems by adding a noise scaling with the non-Euclidean geometry in the simplex. Non-convex optimization has been extensively studied by machine learning community due to its application in various scenarios such as neural network approximation and finding Nash equilibrium. Despite recent progresses on provable guarantee of escaping and avoiding saddle point (convergence to local minima) and global convergence of Langevin gradient based method without constraints, the global optimization with constraints is less studied. We show that LMWU algorithm is provably convergent to interior global minima with a non-asymptotic convergence analysis. We verify the efficiency of the proposed algorithm in real data set from polynomial portfolio management, where optimization of a highly non-linear objective function plays a crucial role.

arxiv情報

著者 Yi Feng,Xiao Wang,Tian Xie
発行日 2025-03-03 15:32:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, Non-convex optimization | Langevin Multiplicative Weights Update with Applications in Polynomial Portfolio Management はコメントを受け付けていません

‘FRAME: Forward Recursive Adaptive Model Extraction-A Technique for Advance Feature Selection’

要約

特徴選択における課題、特にモデルの精度、解釈可能性、計算効率のバランスは、機械学習手法を進歩させる上で依然として重要な問題である。このような複雑性に対処するために、本研究では、多様なデータセットにおける特徴選択を強化するために、前方選択と再帰的特徴除去(RFE)を組み合わせた新しいハイブリッドアプローチ、前方再帰的適応モデル抽出手法(FRAME)を導入する。FRAMEは、前方選択の探索能力とRFEの精密化の強みを組み合わせることで、最適な特徴サブセットを体系的に特定し、実験と精度の調和したトレードオフを実現する。FRAMEの包括的な評価を、SelectKBestやLasso Regressionといった従来の手法に対して、高次元でノイズの多い異種データセットを用いて実施した。その結果、FRAMEは下流の機械学習評価指標に基づき、常に優れた予測性能を発揮することが実証された。FRAMEは、強力なモデル性能で効率的に次元削減を実行するため、解釈可能で正確な予測を必要とするアプリケーション、例えば生物医学診断に特に有用である。 本研究では、特徴選択技術を多様なデータセットで評価し、その頑健性と汎用性を検証する必要性を強調する。その結果、FRAMEは、特に動的設定における適応的かつリアルタイムな特徴選択のための深層学習フレームワークを組み込むことによって、さらなる発展の大きな可能性を秘めていることが示された。特徴選択手法を進化させることで、FRAMEは複数のドメインにわたる機械学習アプリケーションを改善するための実用的かつ効果的なソリューションを提供する。

要約(オリジナル)

The challenges in feature selection, particularly in balancing model accuracy, interpretability, and computational efficiency, remain a critical issue in advancing machine learning methodologies. To address these complexities, this study introduces a novel hybrid approach, the Forward Recursive Adaptive Model Extraction Technique (FRAME), which combines Forward Selection and Recursive Feature Elimination (RFE) to enhance feature selection across diverse datasets. By combining the exploratory capabilities of Forward Selection with the refinement strengths of RFE, FRAME systematically identifies optimal feature subsets, striking a harmonious trade-off between experimentation and precision. A comprehensive evaluation of FRAME is conducted against traditional methods such as SelectKBest and Lasso Regression, using high-dimensional, noisy, and heterogeneous datasets. The results demonstrate that FRAME consistently delivers superior predictive performance based on downstream machine learning evaluation metrics. It efficiently performs dimensionality reduction with strong model performance, thus being especially useful for applications that need interpretable and accurate predictions, e.g., biomedical diagnostics. This research emphasizes the need to evaluate feature selection techniques on diverse datasets to test their robustness and generalizability. The results indicate that FRAME has great potential for further development, especially by incorporating deep learning frameworks for adaptive and real-time feature selection in dynamic settings. By advancing feature selection methodologies, FRAME offers a practical and effective solution to improve machine learning applications across multiple domains.

arxiv情報

著者 Nachiket Kapure,Harsh Joshi,Parul Kumari,Rajeshwari Mistri,Manasi Mali
発行日 2025-03-03 15:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | ‘FRAME: Forward Recursive Adaptive Model Extraction-A Technique for Advance Feature Selection’ はコメントを受け付けていません

CAMEx: Curvature-aware Merging of Experts

要約

モデルの学習や微調整の際にエキスパートをマージする既存の手法は、主に平坦なパラメータ空間を仮定するユークリッド幾何学に依存している。この仮定は、モデルの汎化能力を制限する可能性があり、特に、パラメータ多様体がより複雑な曲率を示す可能性のある事前学習段階では、その可能性がある。曲率を考慮したマージ手法は、通常、フィッシャー情報行列を近似するための追加情報と計算資源を必要とし、メモリオーバーヘッドを追加する。本論文では、CAMEx(Curvature-Aware Merging of Experts)を紹介する。CAMExは、パラメータ多様体の非ユークリッド曲率を考慮するために、自然勾配を組み込んだ新しいエキスパートマージプロトコルである。自然勾配を活用することで、CAMExはパラメータ空間の構造により効果的に適応し、モデルの更新と多様体の形状との間の整合を改善する。このアプローチにより、事前学習と微調整の両方が強化され、曲率を考慮した手法にありがちな大幅なメモリオーバーヘッドを伴わずに、より優れた最適化軌道と改善された汎化が得られる。(1)CAMExは、様々な自然言語処理タスクにおいて、従来のユークリッドベースのエキスパートマージ技術を大幅に凌駕し、事前学習と微調整のパフォーマンスを向上させる。(2)リソースの利用を最適化する動的マージアーキテクチャを導入し、計算コストを削減しながら高いパフォーマンスを達成し、大規模言語モデルの効率的なスケーリングを促進する。コードはhttps://github.com/kpup1710/CAMEx。

要約(オリジナル)

Existing methods for merging experts during model training and fine-tuning predominantly rely on Euclidean geometry, which assumes a flat parameter space. This assumption can limit the model’s generalization ability, especially during the pre-training phase, where the parameter manifold might exhibit more complex curvature. Curvature-aware merging methods typically require additional information and computational resources to approximate the Fisher Information Matrix, adding memory overhead. In this paper, we introduce CAMEx (Curvature-Aware Merging of Experts), a novel expert merging protocol that incorporates natural gradients to account for the non-Euclidean curvature of the parameter manifold. By leveraging natural gradients, CAMEx adapts more effectively to the structure of the parameter space, improving alignment between model updates and the manifold’s geometry. This approach enhances both pre-training and fine-tuning, resulting in better optimization trajectories and improved generalization without the substantial memory overhead typically associated with curvature-aware methods. Our contributions are threefold: (1) CAMEx significantly outperforms traditional Euclidean-based expert merging techniques across various natural language processing tasks, leading to enhanced performance during pre-training and fine-tuning; (2) we introduce a dynamic merging architecture that optimizes resource utilization, achieving high performance while reducing computational costs, facilitating efficient scaling of large language models; and (3) we provide both theoretical and empirical evidence to demonstrate the efficiency of our proposed method. The code is publicly available at: https://github.com/kpup1710/CAMEx.

arxiv情報

著者 Dung V. Nguyen,Minh H. Nguyen,Luc Q. Nguyen,Rachel S. Y. Teo,Tan M. Nguyen,Linh Duy Tran
発行日 2025-03-03 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | CAMEx: Curvature-aware Merging of Experts はコメントを受け付けていません