Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond

要約

大規模な言語モデル(LLMS)は、著作権やプライバシー侵害などの潜在的なリスクを特定するために厳しい監査を受ける必要があります。
これらのリスクが発生すると、望ましくない応答を削除するためにタイムリーな更新が重要であり、法的および安全なモデルの使用を確保します。
それは、LLMの学習に関する最近の研究に拍車をかけ、他のターゲットの反応の完全性を損なうことなくターゲットを絞った望ましくない知識を消去することに焦点を当てています。
既存の研究では、完全な再訓練を必要とせずにLLMの学習を追求するために、さまざまな学習目標を導入しました。
ただし、これらの目的にはそれぞれ独自のプロパティがあり、現在統一されたフレームワークは徹底的に理解することはできません。
ギャップを埋めるために、グラデーション効果(G-Effect)のツールキットを提案し、勾配の観点からモデルのパフォーマンスに及ぼす目標を達成することの影響を定量化します。
顕著な利点は、インスタンス全体のさまざまな側面からの学習の影響を詳述する幅広い能力、ステップ、およびLLMレイヤーの幅広い能力です。
したがって、G-effectは、既存の未学習目標の欠点を特定するための新しい洞察を提供し、緩和と改善のための一連の新しいソリューションを探求する動機をさらに動機付けます。
最後に、この重要な分野を進めるためにコミュニティに貢献することを目的とした、さらなる研究に値する有望な方向性の概要を説明します。

要約(オリジナル)

Large language models (LLMs) should undergo rigorous audits to identify potential risks, such as copyright and privacy infringements. Once these risks emerge, timely updates are crucial to remove undesirable responses, ensuring legal and safe model usage. It has spurred recent research into LLM unlearning, focusing on erasing targeted undesirable knowledge without compromising the integrity of other, non-targeted responses. Existing studies have introduced various unlearning objectives to pursue LLM unlearning without necessitating complete retraining. However, each of these objectives has unique properties, and no unified framework is currently available to comprehend them thoroughly. To fill the gap, we propose a toolkit of the gradient effect (G-effect), quantifying the impacts of unlearning objectives on model performance from a gradient perspective. A notable advantage is its broad ability to detail the unlearning impacts from various aspects across instances, updating steps, and LLM layers. Accordingly, the G-effect offers new insights into identifying drawbacks of existing unlearning objectives, further motivating us to explore a series of new solutions for their mitigation and improvements. Finally, we outline promising directions that merit further studies, aiming at contributing to the community to advance this important field.

arxiv情報

著者 Qizhou Wang,Jin Peng Zhou,Zhanke Zhou,Saebyeol Shin,Bo Han,Kilian Q. Weinberger
発行日 2025-02-26 16:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Rethinking LLM Unlearning Objectives: A Gradient Perspective and Go Beyond はコメントを受け付けていません

I Know What I Don’t Know: Improving Model Cascades Through Confidence Tuning

要約

大規模な機械学習モデルは、幅広いタスクにわたって強力なパフォーマンスを提供しますが、重要な計算およびリソースの制約があります。
これらの課題を緩和するために、ローカルの小さなモデルは、多くの場合、より大きなモデルと一緒に展開され、複雑なタスクをオフロードするためのルーティングと延期メカニズムに依存します。
ただし、既存のアプローチは、これらのモデルの能力のバランスが不十分であり、多くの場合、不必要な延期または最適なリソースの使用をもたらします。
この作業では、カスケードセットアップで小型モデルを調整するためのGateKeeperと呼ばれる新しい損失関数を紹介します。
私たちのアプローチは、より大きなモデルに複雑なタスクを延期しながら、正しく実行できるタスクを自信を持って処理するための小さなモデルを微調整します。
さらに、モデルのパフォーマンスと延期精度の間のトレードオフを管理するためのメカニズムが組み込まれており、アーキテクチャの変更なしに、さまざまなタスクとドメインに広く適用されます。
エンコーダーのみ、デコーダーのみ、およびエンコーダデコーダーアーキテクチャでの方法を評価します。
画像分類、言語モデリング、ビジョン言語タスク全体の実験は、私たちのアプローチが延期パフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

Large-scale machine learning models deliver strong performance across a wide range of tasks but come with significant computational and resource constraints. To mitigate these challenges, local smaller models are often deployed alongside larger models, relying on routing and deferral mechanisms to offload complex tasks. However, existing approaches inadequately balance the capabilities of these models, often resulting in unnecessary deferrals or sub-optimal resource usage. In this work we introduce a novel loss function called Gatekeeper for calibrating smaller models in cascade setups. Our approach fine-tunes the smaller model to confidently handle tasks it can perform correctly while deferring complex tasks to the larger model. Moreover, it incorporates a mechanism for managing the trade-off between model performance and deferral accuracy, and is broadly applicable across various tasks and domains without any architectural changes. We evaluate our method on encoder-only, decoder-only, and encoder-decoder architectures. Experiments across image classification, language modeling, and vision-language tasks show that our approach substantially improves deferral performance.

arxiv情報

著者 Stephan Rabanser,Nathalie Rauschmayr,Achin Kulshrestha,Petra Poklukar,Wittawat Jitkrittum,Sean Augenstein,Congchao Wang,Federico Tombari
発行日 2025-02-26 17:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | I Know What I Don’t Know: Improving Model Cascades Through Confidence Tuning はコメントを受け付けていません

Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper’s Encoder for Efficient Parameter Reduction in Automated Assessment

要約

st音の自動分類は、音声言語病理学者に支援を提供するタイムリーな評価に大きな意味を持ちます。
この分野での顕著な進歩にもかかわらず、音声で複数の障害が発生する場合には注意が必要です。
マルチスタッタースピーチをより効率的に分類することにより、このギャップを埋めるために進歩的なアプローチを取りました。
この問題は、最初にオープンソースデータセットSEP-28Kオーディオクリップからのマルチスタッター解散のデータセットをキュレーションすることによって対処されています。
第二に、Whisperを採用すると、最先端の音声認識モデルがエンコーダーを使用し、マルチラベル分類として問題を引き受けることにより、活用されています。
第三に、6つのエンコーダーレイヤーのささやきを使用して、さまざまなレイヤーフリーズ戦略を実験して、モデルの計算効率的な構成が識別されました。
提案された構成は、0.88、0.85、および0.87のマイクロ、マクロ、および加重F1スコアを達成しました。
さらに、レイヤーフリーズ戦略を介して、単一のエンコーダーレイヤーを微調整することで前述の結果を達成することができ、その結果、モデルのトレーニング可能なパラメーターが2027万から329百万に減少しました。
この調査研究では、utter音を立てた音声における障害の識別における最後のエンコーダー層の貢献を明らかにします。
その結果、計算上効率的なアプローチ、トレーニングするパラメーターが83.7%少なくなり、提案されたアプローチがさまざまな方言や言語に対してより適応性があるようになりました。

要約(オリジナル)

The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from open source dataset SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1-scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model’s trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach, 83.7% less parameters to train, making the proposed approach more adaptable for various dialects and languages.

arxiv情報

著者 Huma Ameer,Seemab Latif,Mehwish Fatima
発行日 2025-02-26 17:31:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper’s Encoder for Efficient Parameter Reduction in Automated Assessment はコメントを受け付けていません

What is my quantum computer good for? Quantum capability learning with physics-aware neural networks

要約

量子コンピューターは、量子化学、材料科学、機械学習など、多様な分野に革命をもたらす可能性があります。
ただし、現代の量子コンピューターは、Quantumプログラムが失敗することが多いエラーを経験します。
量子コンピューターが大規模な量子プログラムを確実に実行できるようになるまで、利害関係者は、Quantum Computerの能力を評価するための高速かつ信頼性の高い方法、それが実行できるプログラム、およびそれらをどれだけうまく実行できるかを必要とします。
以前は、これらのネットワークが実際の量子コンピューターのエラーを決定する複雑な量子物理学を学習できないため、既製のニューラルネットワークアーキテクチャが量子コンピューターの機能をモデル化するために使用されていましたが、成功は限られています。
この欠点は、学習能力モデルのための新しい量子物理的認識ニューラルネットワークアーキテクチャで対処します。
当社のアーキテクチャは、グラフニューラルネットワークの側面を、量子プログラムのエラーの物理学に効率的な近似と組み合わせています。
このアプローチは、畳み込みニューラルネットワークに基づいた最先端モデルで、実験データとシミュレートされた両方のデータで平均絶対誤差の最大$ \ sim50 \%$削減を達成します。

要約(オリジナル)

Quantum computers have the potential to revolutionize diverse fields, including quantum chemistry, materials science, and machine learning. However, contemporary quantum computers experience errors that often cause quantum programs run on them to fail. Until quantum computers can reliably execute large quantum programs, stakeholders will need fast and reliable methods for assessing a quantum computer’s capability-i.e., the programs it can run and how well it can run them. Previously, off-the-shelf neural network architectures have been used to model quantum computers’ capabilities, but with limited success, because these networks fail to learn the complex quantum physics that determines real quantum computers’ errors. We address this shortcoming with a new quantum-physics-aware neural network architecture for learning capability models. Our architecture combines aspects of graph neural networks with efficient approximations to the physics of errors in quantum programs. This approach achieves up to $\sim50\%$ reductions in mean absolute error on both experimental and simulated data, over state-of-the-art models based on convolutional neural networks.

arxiv情報

著者 Daniel Hothem,Ashe Miller,Timothy Proctor
発行日 2025-02-26 17:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | What is my quantum computer good for? Quantum capability learning with physics-aware neural networks はコメントを受け付けていません

CryptoPulse: Short-Term Cryptocurrency Forecasting with Dual-Prediction and Cross-Correlated Market Indicators

要約

暗号通貨は、価格のボラティリティが高い市場で変動し、投資家に大きな課題をもたらします。
情報に基づいた意思決定を支援するために、暗号通貨市場の動きを予測するシステムが開発されており、通常は歴史的なパターンに焦点を当てています。
ただし、これらの方法は、市場のダイナミクスに影響を与える3つの重要な要因を見落としていることがよくあります。1)マクロ投資環境は、共同投資家の行動に影響を与える主要な暗号通貨の変動に反映されています。
2)投資家の戦略に影響を与えるニュースに大きく影響された全体的な市場感情。
3)技術的指標。短期的な価格の動きに不可欠な、過剰に買われたり過剰販売条件、勢い、市場動向についての洞察を提供します。
このペーパーでは、マクロ経済の変動、技術指標、および個々の暗号通貨の価格の変化を組み込むことにより、翌日の終値を予測する二重予測メカニズムを提案します。
さらに、新しい改良メカニズムは、市場センチメントベースの再融合と融合を通じて予測を強化します。
実験は、提案されたモデルが最先端のパフォーマンスを達成し、一貫して10の比較方法を上回ることを示しています。

要約(オリジナル)

Cryptocurrencies fluctuate in markets with high price volatility, posing significant challenges for investors. To aid in informed decision-making, systems predicting cryptocurrency market movements have been developed, typically focusing on historical patterns. However, these methods often overlook three critical factors influencing market dynamics: 1) the macro investing environment, reflected in major cryptocurrency fluctuations affecting collaborative investor behaviors; 2) overall market sentiment, heavily influenced by news impacting investor strategies; and 3) technical indicators, offering insights into overbought or oversold conditions, momentum, and market trends, which are crucial for short-term price movements. This paper proposes a dual prediction mechanism that forecasts the next day’s closing price by incorporating macroeconomic fluctuations, technical indicators, and individual cryptocurrency price changes. Additionally, a novel refinement mechanism enhances predictions through market sentiment-based rescaling and fusion. Experiments demonstrate that the proposed model achieves state-of-the-art performance, consistently outperforming ten comparison methods.

arxiv情報

著者 Amit Kumar,Taoran Ji
発行日 2025-02-26 17:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.PR | CryptoPulse: Short-Term Cryptocurrency Forecasting with Dual-Prediction and Cross-Correlated Market Indicators はコメントを受け付けていません

Recurrent Auto-Encoders for Enhanced Deep Reinforcement Learning in Wilderness Search and Rescue Planning

要約

荒野の捜索救助活動は、多くの場合、広大な風景を介して行われます。
ただし、犠牲者の生存の可能性を最大化するために、検索の努力は最小時間に行われなければなりません。
近年の安価なマルチコプターの出現により、検索操作の処理方法が変わりましたが、手元の大規模なエリアの課題は解決していません。
したがって、問題は完全なカバレッジの1つではなく、利用可能な期間に収集された情報を最大化するものの1つです。
この作業では、再発自動エンコーダーとディープ補強学習の組み合わせは、以前の純粋な深い強化学習または最適化アプローチよりも、検索問題に対するより効率的なソリューションであることを提案します。
自動エンコーダートレーニングパラダイムは、エンコーダーの情報スループットをその潜在的な空間表現に効率的に最大化し、深い補強学習が活用する準備ができています。
再発自動エンコーダーが設計されている問題を独立して解決するオーバーヘッドがなければ、制御タスクを学習する方が効率的です。
さらに、主な提案されたアーキテクチャを包括的に比較するために、3つの追加アーキテクチャを実装します。
同様に、ソフトな俳優と近位の政策最適化の両方を適用して、非常に非線形および複雑なアプリケーションの両方のパフォーマンスについての洞察を提供し、提案されたアーキテクチャがベンチマークよりも非常に優れており、ソフトアクター批評が最高のパフォーマンスを達成していることが示されています。
このモデルは、四分の一の学習可能なパラメーターとトレーニングの5分の1を下回る一方で、文献からの作業をさらに上回りました。

要約(オリジナル)

Wilderness search and rescue operations are often carried out over vast landscapes. The search efforts, however, must be undertaken in minimum time to maximize the chance of survival of the victim. Whilst the advent of cheap multicopters in recent years has changed the way search operations are handled, it has not solved the challenges of the massive areas at hand. The problem therefore is not one of complete coverage, but one of maximizing the information gathered in the limited time available. In this work we propose that a combination of a recurrent autoencoder and deep reinforcement learning is a more efficient solution to the search problem than previous pure deep reinforcement learning or optimisation approaches. The autoencoder training paradigm efficiently maximizes the information throughput of the encoder into its latent space representation which deep reinforcement learning is primed to leverage. Without the overhead of independently solving the problem that the recurrent autoencoder is designed for, it is more efficient in learning the control task. We further implement three additional architectures for a comprehensive comparison of the main proposed architecture. Similarly, we apply both soft actor-critic and proximal policy optimisation to provide an insight into the performance of both in a highly non-linear and complex application with a large observation Results show that the proposed architecture is vastly superior to the benchmarks, with soft actor-critic achieving the best performance. This model further outperformed work from the literature whilst having below a fifth of the total learnable parameters and training in a quarter of the time.

arxiv情報

著者 Jan-Hendrik Ewers,David Anderson,Douglas Thomson
発行日 2025-02-26 17:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Recurrent Auto-Encoders for Enhanced Deep Reinforcement Learning in Wilderness Search and Rescue Planning はコメントを受け付けていません

Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences

要約

機械学習におけるマルチタスクトレードオフは、単一のモデルでパレートフロント(PF)をパラメーター化するパレートフロントラーニング(PFL)メソッドを介して対処できます。
PFLは、トレーニング前に決定された単一のトレードオフを最適化する従来のマルチタスク学習(MTL)に反して、推論中に目的の運用ポイントを選択することを許可します。
ただし、最近のPFL方法論は、限られたスケーラビリティ、ゆっくりとした収束、および過度のメモリ要件に悩まされていますが、視点から客観的な空間への一貫性のないマッピングを示しています。
これらの制限に2つの方法で対処する新しいパラメーター効率の高い方法であるPaloraを紹介します。
まず、タスク固有の低ランクアダプターを使用してニューラルネットワークアーキテクチャを拡張し、凸式船体のPFを継続的にパラメーター化します。
私たちのアプローチは、それぞれ一般的なモデルとアダプターを一般的およびタスク固有の機能を学習することに向けて操作します。
第二に、この分業を強化する優先ベクターの決定論的なサンプリングスケジュールを提案し、トレーニングを通じてマッピングの妥当性をより速い収束させ、マッピングの妥当性を客観的空間への妥当性を強化することを提案します。
私たちの実験は、Paloraがさまざまなデータセットにわたって最先端のMTLおよびPFLベースラインを上回り、大規模なネットワークにスケーリングし、シーンのベンチマークを理解するシーンの競合するPFLベースラインと比較して、メモリオーバーヘッド$ 23.8-31.7 $の時間を削減することを示しています。

要約(オリジナル)

Multi-task trade-offs in machine learning can be addressed via Pareto Front Learning (PFL) methods that parameterize the Pareto Front (PF) with a single model. PFL permits to select the desired operational point during inference, contrary to traditional Multi-Task Learning (MTL) that optimizes for a single trade-off decided prior to training. However, recent PFL methodologies suffer from limited scalability, slow convergence, and excessive memory requirements, while exhibiting inconsistent mappings from preference to objective space. We introduce PaLoRA, a novel parameter-efficient method that addresses these limitations in two ways. First, we augment any neural network architecture with task-specific low-rank adapters and continuously parameterize the PF in their convex hull. Our approach steers the original model and the adapters towards learning general and task-specific features, respectively. Second, we propose a deterministic sampling schedule of preference vectors that reinforces this division of labor, enabling faster convergence and strengthening the validity of the mapping from preference to objective space throughout training. Our experiments show that PaLoRA outperforms state-of-the-art MTL and PFL baselines across various datasets, scales to large networks, reducing the memory overhead $23.8-31.7$ times compared with competing PFL baselines in scene understanding benchmarks.

arxiv情報

著者 Nikolaos Dimitriadis,Pascal Frossard,Francois Fleuret
発行日 2025-02-26 17:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences はコメントを受け付けていません

Deep Learning For Time Series Analysis With Application On Human Motion

要約

時間の経過とともに等間隔のポイントで定義される時系列データは、医学、通信、エネルギーなどの分野で不可欠です。
分析には、分類、クラスタリング、プロトタイピング、回帰などのタスクが含まれます。
分類は、スケルトンベースのモーションシーケンスの通常の動きと異常な動きを識別し、クラスタリングは株式市場の行動パターンを検出し、プロトタイピングは理学療法データセットを拡張し、回帰は患者の回復を予測します。
ディープラーニングは最近、他のドメインで成功したため、時系列分析で牽引力を獲得しました。
この論文は、深い学習を活用して、機能エンジニアリングによる分類を強化し、基礎モデルを導入し、コンパクトでありながら最先端のアーキテクチャを開発します。
また、限られたラベル付きデータを自己監督した学習を備えています。
当社の貢献は、行動認識とリハビリテーションのための人間の動き分析を含む、現実世界のタスクにも適用されます。
映画の生産とゲームに貴重な人間のモーションデータの生成モデルを紹介します。
プロトタイピングの場合、データが不足している場合に回帰モデルをサポートする形状ベースの合成サンプル生成方法を提案します。
最後に、識別モデルと生成モデルを批判的に評価し、現在の方法論の制限を特定し、堅牢で標準化された評価フレームワークを提唱します。
パブリックデータセットでの実験は、新しい洞察と方法論を提供し、実用的なアプリケーションで時系列分析を進めます。

要約(オリジナル)

Time series data, defined by equally spaced points over time, is essential in fields like medicine, telecommunications, and energy. Analyzing it involves tasks such as classification, clustering, prototyping, and regression. Classification identifies normal vs. abnormal movements in skeleton-based motion sequences, clustering detects stock market behavior patterns, prototyping expands physical therapy datasets, and regression predicts patient recovery. Deep learning has recently gained traction in time series analysis due to its success in other domains. This thesis leverages deep learning to enhance classification with feature engineering, introduce foundation models, and develop a compact yet state-of-the-art architecture. We also address limited labeled data with self-supervised learning. Our contributions apply to real-world tasks, including human motion analysis for action recognition and rehabilitation. We introduce a generative model for human motion data, valuable for cinematic production and gaming. For prototyping, we propose a shape-based synthetic sample generation method to support regression models when data is scarce. Lastly, we critically evaluate discriminative and generative models, identifying limitations in current methodologies and advocating for a robust, standardized evaluation framework. Our experiments on public datasets provide novel insights and methodologies, advancing time series analysis with practical applications.

arxiv情報

著者 Ali Ismail-Fawaz
発行日 2025-02-26 18:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Deep Learning For Time Series Analysis With Application On Human Motion はコメントを受け付けていません

dCMF: Learning interpretable evolving patterns from temporal multiway data

要約

マルチウェイデータセットは、監視なしマトリックスとテンソル因数分解方法を使用して一般的に分析され、基礎となるパターンを明らかにします。
多くの場合、そのようなデータセットにはタイムスタンプが含まれており、たとえば、時間の経過とともに収集された被験者の健康関連の測定に対応できます。
時間的次元は、本質的な特性を説明する方法を必要とする他の次元と本質的に異なります。
線形動的システム(LDS)は、観測されたデータで順次依存関係をキャプチャするように特異的に設計されています。
この作業では、LDS、結合マトリックス因数化(CMF)、およびPARAFAC2モデルの関係を調査することにより、テンソル因数化と動的モデリングの間のギャップを埋めます。
特定のLDS構造に準拠するために潜在因子の時間的進化を制約するD(Ynamic)CMFと呼ばれる時間を意識した結合因数分解モデルを提案します。
合成データセットを使用して、DCMFのパフォーマンスをPARAFAC2およびT(Empolal)Parafac2と比較して、時間的滑らかさを組み込みます。
我々の結果は、DCMFとPARAFAC2ベースのアプローチが、PARAFAC2構造に付着するスムーズに進化するパターンをキャプチャするときに同様に機能することを示しています。
ただし、DCMFは、パターンがスムーズに進化しているが、PARAFAC2構造から逸脱する場合、代替案よりも優れています。
さらに、提案されたDCMFメソッドにより、時間的進化に関する追加の事前情報が組み込まれている場合、より複雑なダイナミクスをキャプチャできることを実証します。

要約(オリジナル)

Multiway datasets are commonly analyzed using unsupervised matrix and tensor factorization methods to reveal underlying patterns. Frequently, such datasets include timestamps and could correspond to, for example, health-related measurements of subjects collected over time. The temporal dimension is inherently different from the other dimensions, requiring methods that account for its intrinsic properties. Linear Dynamical Systems (LDS) are specifically designed to capture sequential dependencies in the observed data. In this work, we bridge the gap between tensor factorizations and dynamical modeling by exploring the relationship between LDS, Coupled Matrix Factorizations (CMF) and the PARAFAC2 model. We propose a time-aware coupled factorization model called d(ynamical)CMF that constrains the temporal evolution of the latent factors to adhere to a specific LDS structure. Using synthetic datasets, we compare the performance of dCMF with PARAFAC2 and t(emporal)PARAFAC2 which incorporates temporal smoothness. Our results show that dCMF and PARAFAC2-based approaches perform similarly when capturing smoothly evolving patterns that adhere to the PARAFAC2 structure. However, dCMF outperforms alternatives when the patterns evolve smoothly but deviate from the PARAFAC2 structure. Furthermore, we demonstrate that the proposed dCMF method enables to capture more complex dynamics when additional prior information about the temporal evolution is incorporated.

arxiv情報

著者 Christos Chatzis,Carla Schenker,Jérémy E. Cohen,Evrim Acar
発行日 2025-02-26 18:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | dCMF: Learning interpretable evolving patterns from temporal multiway data はコメントを受け付けていません

HDEE: Heterogeneous Domain Expert Ensemble

要約

密なLLMSのトレーニングには、膨大な量のデータと集中型コンピューティングが必要であり、これにより、基本的なボトルネックと大規模なモデルに増え続けるコストが導入されます。
いくつかの研究は、トレーニング密集したモデルの通信オーバーヘッドを減らすことにより、集中化へのこの依存を減らすことを目指しています。
小さな独立した専門家の恥ずかしいほど並行可能なアンサンブルを訓練することにより、コミュニケーションを自然に極端に縮小するというこのアイデアをとることは、従来の集中環境で訓練された大きな密なモデルを上回ることが示されています。
ただし、既存の研究では、データドメイン間の根本的な違いを考慮していないため、それらの根底にある複雑さ、サイズ、または分布に関係なく、それらをモノリシックとして扱います。
この論文では、ドメインの専門家モデルのこれらのアンサンブルに不均一性を導入する効果を調査します。
具体的には、アンサンブル内のモデルがサイズが異なるようにすることにより、トレーニングデータのドメインに応じて取得するトレーニング手順の数と同様に、トレーニングセットに含まれ、除外されたドメインに対して評価された場合に、これらのアンサンブルに対する不均一性の影響を調査します。
同じ計算予算を使用して、比較のために不均一なアンサンブルと均質なベースラインをトレーニングします。
不均一なアンサンブルは、評価で使用されている21ドルのデータドメインのうち20ドルで最低の困惑スコアを達成することを示しています。
私たちのコードは、https://github.com/gensyn-ai/hdeeで入手できます。

要約(オリジナル)

Training dense LLMs requires enormous amounts of data and centralized compute, which introduces fundamental bottlenecks and ever-growing costs for large models. Several studies aim to reduce this dependency on centralization by reducing the communication overhead of training dense models. Taking this idea of reducing communication overhead to a natural extreme, by training embarrassingly parallelizable ensembles of small independent experts, has been shown to outperform large dense models trained in traditional centralized settings. However, existing studies do not take into account underlying differences amongst data domains and treat them as monolithic, regardless of their underlying complexity, size, or distribution. In this paper, we explore the effects of introducing heterogeneity to these ensembles of domain expert models. Specifically, by allowing models within the ensemble to vary in size–as well as the number of training steps taken depending on the training data’s domain–we study the effect heterogeneity has on these ensembles when evaluated against domains included in, and excluded from, the training set. We use the same compute budget to train heterogeneous ensembles and homogeneous baselines for comparison. We show that the heterogeneous ensembles achieve the lowest perplexity scores in $20$ out of the $21$ data domains used in the evaluation. Our code is available at https://github.com/gensyn-ai/hdee.

arxiv情報

著者 Oğuzhan Ersoy,Jari Kolehmainen,Gabriel Passamani Andrade
発行日 2025-02-26 18:30:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | HDEE: Heterogeneous Domain Expert Ensemble はコメントを受け付けていません