When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers

要約

タスク算術とは、タスクベクトルの加重合計を追加することにより、事前に訓練されたモデルの編集を指します。各タスクモデルから特定のタスクの微調整モデルまでの重量アップデートです。
このアプローチは最近、モデル編集、たとえばマルチタスク学習、忘却、およびドメイン外の一般化機能のための計算効率的な推論方法として注目を集めました。
ただし、トレーニングトランスベースのモデルが非常に非信頼性により、タスクベクトルがさまざまな概念操作を実行できる理由の理論的理解は限られたままです。
私たちの知る限り、この論文は、非線形トランスのタスクベクトルメソッドの一般化保証の最初の理論的特性を提供します。
概念学習設定を検討します。ここでは、各タスクは識別パターンに基づいたバイナリ分類問題です。
私たちは、無関係または矛盾したタスクから1つのタスクを学習する際のタスク否定の成功と同時に、無関係なタスクまたは整合したタスクのセットを同時に学習する際のタスクの追加の有効性を理論的に証明します。
さらに、ドメイン外のタスクに保証された一般化を実現するために、タスク算術の線形係数の適切な選択を証明します。
私たちの理論的結果はすべて、密度の高い重量パラメーターとそれらの低ランク近似の両方に当てはまります。
概念的な設定で確立されましたが、私たちの理論的調査結果は、大規模な言語モデルPHI-1.5(1.3b)を使用して、実用的なマシンの未学習タスクで検証されました。

要約(オリジナル)

Task arithmetic refers to editing the pre-trained model by adding a weighted sum of task vectors, each of which is the weight update from the pre-trained model to fine-tuned models for certain tasks. This approach recently gained attention as a computationally efficient inference method for model editing, e.g., multi-task learning, forgetting, and out-of-domain generalization capabilities. However, the theoretical understanding of why task vectors can execute various conceptual operations remains limited, due to the highly non-convexity of training Transformer-based models. To the best of our knowledge, this paper provides the first theoretical characterization of the generalization guarantees of task vector methods on nonlinear Transformers. We consider a conceptual learning setting, where each task is a binary classification problem based on a discriminative pattern. We theoretically prove the effectiveness of task addition in simultaneously learning a set of irrelevant or aligned tasks, as well as the success of task negation in unlearning one task from irrelevant or contradictory tasks. Moreover, we prove the proper selection of linear coefficients for task arithmetic to achieve guaranteed generalization to out-of-domain tasks. All of our theoretical results hold for both dense-weight parameters and their low-rank approximations. Although established in a conceptual setting, our theoretical findings were validated on a practical machine unlearning task using the large language model Phi-1.5 (1.3B).

arxiv情報

著者 Hongkang Li,Yihua Zhang,Shuai Zhang,Meng Wang,Sijia Liu,Pin-Yu Chen
発行日 2025-04-18 15:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers はコメントを受け付けていません

Predictors of Childhood Vaccination Uptake in England: An Explainable Machine Learning Analysis of Longitudinal Regional Data (2021-2024)

要約

小児期のワクチン接種は公衆衛生の礎石ですが、ワクチン接種の範囲の格差はイギリス全土で続いています。
これらの格差は、地理的、人口統計学的、社会経済的、文化的(GDSC)要因など、さまざまな要因間の複雑な相互作用によって形作られます。
以前の研究は、主に断面データと、個々のまたは限られた変数セットを単独で評価する従来の統計的アプローチに依存しています。
このような方法は、ワクチンの取り込みの動的で多変量性の性質を捉えるのに不十分な場合があります。
この論文では、2021年から2024年までイギリスの150の地区で小児期の予防接種の縦方向の機械学習分析を実施しました。NHSレコードからのワクチン接種データを使用して、ワクチン接種のカバレッジにより階層的クラスタリングを適用しました。
次に、GDSCデータを使用して地区のワクチン接種クラスターを予測するように訓練されました。
最後に、Shapley Additive説明(SHAP)メソッドを使用して、予測因子の重要性を解釈しました。
分類器は、2021-2022、2022-2023、および2023-2024のそれぞれの地区の予防接種クラスターの予測において、92.1、90.6、および86.3の高い精度を達成しました。
Shapは、地理的、文化的、および人口統計学的変数、特に農業、英語能力、外国生まれの住民の割合、および民族構成が予防接種のカバレッジの最も影響力のある予測因子であるのに対し、剥奪や雇用などの社会経済的変数は、特に2023-2024で一貫して重要性を示したことを明らかにしました。
驚くべきことに、農村地区は予防接種率が高くなる可能性が非常に高かった。
さらに、予防接種が低い地区には、第一言語が英語ではなく、英国外で生まれた、または少数民族のグループから来た人口が高くなりました。

要約(オリジナル)

Childhood vaccination is a cornerstone of public health, yet disparities in vaccination coverage persist across England. These disparities are shaped by complex interactions among various factors, including geographic, demographic, socioeconomic, and cultural (GDSC) factors. Previous studies mostly rely on cross-sectional data and traditional statistical approaches that assess individual or limited sets of variables in isolation. Such methods may fall short in capturing the dynamic and multivariate nature of vaccine uptake. In this paper, we conducted a longitudinal machine learning analysis of childhood vaccination coverage across 150 districts in England from 2021 to 2024. Using vaccination data from NHS records, we applied hierarchical clustering to group districts by vaccination coverage into low- and high-coverage clusters. A CatBoost classifier was then trained to predict districts’ vaccination clusters using their GDSC data. Finally, the SHapley Additive exPlanations (SHAP) method was used to interpret the predictors’ importance. The classifier achieved high accuracies of 92.1, 90.6, and 86.3 in predicting districts’ vaccination clusters for the years 2021-2022, 2022-2023, and 2023-2024, respectively. SHAP revealed that geographic, cultural, and demographic variables, particularly rurality, English language proficiency, the percentage of foreign-born residents, and ethnic composition, were the most influential predictors of vaccination coverage, whereas socioeconomic variables, such as deprivation and employment, consistently showed lower importance, especially in 2023-2024. Surprisingly, rural districts were significantly more likely to have higher vaccination rates. Additionally, districts with lower vaccination coverage had higher populations whose first language was not English, who were born outside the UK, or who were from ethnic minority groups.

arxiv情報

著者 Amin Noroozi,Sidratul Muntaha Esha,Mansoureh Ghari
発行日 2025-04-18 15:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Predictors of Childhood Vaccination Uptake in England: An Explainable Machine Learning Analysis of Longitudinal Regional Data (2021-2024) はコメントを受け付けていません

Algorithms for mean-field variational inference via polyhedral optimization in the Wasserstein space

要約

ワッサースタイン空間を介して有限次元の多面体サブセットの理論を開発し、一次方法を介して機能を最適化します。
私たちの主なアプリケーションは、製品測定$ \ pi^\ star $による$ \ mathbb {r}^d $を超える分布$ \ pi $を近似しようとする平均フィールド変異推論の問題です。
$ \ pi $がlog-concaveとlog-smoothの場合、(1)$ \ pi^\ star $がミニマイザー$ \ pi^\ star_ \ diamond $ of the kl divergence over a \ econd {poly-hedral} set $ \ diamond $ \ mathcal {p} _ \ diamond $ for(2)s _ _ _ \ diamond $ a and(2)set $ \ diavence of a buling(poly-hedral)に近いことを証明します。
$ \ text {kl}(\ cdot \ | \ pi)$ $ \ mathcal {p} _ \ diamond $を超える$ \ r^d $を超える加速勾配降下に基づいて。
分析の副産物として、MFVIの勾配ベースのアルゴリズムの最初のエンドツーエンド分析を取得します。

要約(オリジナル)

We develop a theory of finite-dimensional polyhedral subsets over the Wasserstein space and optimization of functionals over them via first-order methods. Our main application is to the problem of mean-field variational inference, which seeks to approximate a distribution $\pi$ over $\mathbb{R}^d$ by a product measure $\pi^\star$. When $\pi$ is strongly log-concave and log-smooth, we provide (1) approximation rates certifying that $\pi^\star$ is close to the minimizer $\pi^\star_\diamond$ of the KL divergence over a \emph{polyhedral} set $\mathcal{P}_\diamond$, and (2) an algorithm for minimizing $\text{KL}(\cdot\|\pi)$ over $\mathcal{P}_\diamond$ based on accelerated gradient descent over $\R^d$. As a byproduct of our analysis, we obtain the first end-to-end analysis for gradient-based algorithms for MFVI.

arxiv情報

著者 Yiheng Jiang,Sinho Chewi,Aram-Alexandre Pooladian
発行日 2025-04-18 15:55:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.TH | Algorithms for mean-field variational inference via polyhedral optimization in the Wasserstein space はコメントを受け付けていません

Equi-Euler GraphNet: An Equivariant, Temporal-Dynamics Informed Graph Neural Network for Dual Force and Trajectory Prediction in Multi-Body Systems

要約

マルチボディダイナミカルシステムの正確なリアルタイムモデリングは、業界全体でデジタルツインアプリケーションを可能にするために不可欠です。
多くのデータ駆動型アプローチはシステムのダイナミクスを学ぶことを目的としていますが、内部負荷とシステムの軌跡を共同で予測することは依然として重要な課題です。
この二重の予測は、障害検出と予測維持のために特に重要です。ここでは、内部負荷が接触力(障害の初期の指標としての断片)であり、動きに影響を与える前に摩耗または不整合を反映しています。
これらの力は、分解モデル(亀裂の成長など)への入力としても機能し、損傷の予測と残りの耐用年数推定を可能にします。
マルチボディシステムの内部力とグローバルな軌跡を同時に予測する物理情報に基づいたグラフニューラルネットワーク(GNN)であるEqui-Euler GraphNetを提案します。
このメッシュフリーフレームワークでは、ノードはシステムコンポーネントを表し、エッジはインタラクションをエンコードします。
Equi-Euler GraphNetは、2つの帰納的バイアスを導入します。(1)Edid Edgeメッセージをユークリッド変換の下で一貫した相互作用力として解釈する等量のメッセージパススキーム。
(2)オイラーの統合に基づいて、時間の経過とともに遠方の相互作用の影響を捉えるための時間を意識した反復ノード更新メカニズム。
円筒形のローラーベアリングに合わせて、ローリング要素の制約された動きからリングダイナミクスを切り離します。
高忠実度の多目的シミュレーションでトレーニングされたEqui-Euler GraphNetは、トレーニングの分布を超えて一般化し、目に見えない速度、負荷、および構成の下で負荷と軌跡を正確に予測します。
軌道予測に焦点を当てた最先端のGNNよりも優れており、最小限のエラー蓄積で数千の時間ステップにわたって安定したロールアウトを提供します。
同等の精度を維持しながら、従来のソルバーよりも最大200倍のスピードアップを達成するため、デジタル双子、設計、メンテナンスの効率的な縮小順序モデルとして機能します。

要約(オリジナル)

Accurate real-time modeling of multi-body dynamical systems is essential for enabling digital twin applications across industries. While many data-driven approaches aim to learn system dynamics, jointly predicting internal loads and system trajectories remains a key challenge. This dual prediction is especially important for fault detection and predictive maintenance, where internal loads-such as contact forces-act as early indicators of faults, reflecting wear or misalignment before affecting motion. These forces also serve as inputs to degradation models (e.g., crack growth), enabling damage prediction and remaining useful life estimation. We propose Equi-Euler GraphNet, a physics-informed graph neural network (GNN) that simultaneously predicts internal forces and global trajectories in multi-body systems. In this mesh-free framework, nodes represent system components and edges encode interactions. Equi-Euler GraphNet introduces two inductive biases: (1) an equivariant message-passing scheme, interpreting edge messages as interaction forces consistent under Euclidean transformations; and (2) a temporal-aware iterative node update mechanism, based on Euler integration, to capture influence of distant interactions over time. Tailored for cylindrical roller bearings, it decouples ring dynamics from constrained motion of rolling elements. Trained on high-fidelity multiphysics simulations, Equi-Euler GraphNet generalizes beyond the training distribution, accurately predicting loads and trajectories under unseen speeds, loads, and configurations. It outperforms state-of-the-art GNNs focused on trajectory prediction, delivering stable rollouts over thousands of time steps with minimal error accumulation. Achieving up to a 200x speedup over conventional solvers while maintaining comparable accuracy, it serves as an efficient reduced-order model for digital twins, design, and maintenance.

arxiv情報

著者 Vinay Sharma,Rémi Tanguy Oddon,Pietro Tesini,Jens Ravesloot,Cees Taal,Olga Fink
発行日 2025-04-18 16:09:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG, physics.comp-ph | Equi-Euler GraphNet: An Equivariant, Temporal-Dynamics Informed Graph Neural Network for Dual Force and Trajectory Prediction in Multi-Body Systems はコメントを受け付けていません

RiboGen: RNA Sequence and Structure Co-Generation with Equivariant MultiFlow

要約

リボ核酸(RNA)は、遺伝情報を運ぶことから酵素機能の実行まで、生物系で基本的な役割を果たします。
RNAの理解と設計により、新しい治療用途とバイオテクノロジーの革新が可能になります。
RNA設計を強化するために、このペーパーでは、RIBOGENを紹介します。これは、RNA配列と全原子3D構造を同時に生成する最初の深い学習モデルです。
リボーゲンは、マルチモーダルデータ表現での離散フローマッチングと一致する標準フローを活用します。
リボーゲンは、3次元の幾何学を効率的に処理および学習するためのユークリッド等量ニューラルネットワークに基づいています。
我々の実験は、リボーゲンが化学的にもっともらしいRNAサンプルを効率的に生成できることを示しており、配列と構造の共生成がRNAをモデル化するための競争的アプローチであることを示唆しています。

要約(オリジナル)

Ribonucleic acid (RNA) plays fundamental roles in biological systems, from carrying genetic information to performing enzymatic function. Understanding and designing RNA can enable novel therapeutic application and biotechnological innovation. To enhance RNA design, in this paper we introduce RiboGen, the first deep learning model to simultaneously generate RNA sequence and all-atom 3D structure. RiboGen leverages the standard Flow Matching with Discrete Flow Matching in a multimodal data representation. RiboGen is based on Euclidean Equivariant neural networks for efficiently processing and learning three-dimensional geometry. Our experiments show that RiboGen can efficiently generate chemically plausible and self-consistent RNA samples, suggesting that co-generation of sequence and structure is a competitive approach for modeling RNA.

arxiv情報

著者 Dana Rubin,Allan dos Santos Costa,Manvitha Ponnapati,Joseph Jacobson
発行日 2025-04-18 16:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM | RiboGen: RNA Sequence and Structure Co-Generation with Equivariant MultiFlow はコメントを受け付けていません

On the Relationship Between Robustness and Expressivity of Graph Neural Networks

要約

アーキテクチャの特徴、グラフ特性、およびそれらの相互作用の影響を研究するために分析フレームワークを導入することにより、グラフニューラルネットワーク(GNNS)のビットフリップ攻撃(BFA)の脆弱性を調査します。
GNNSの表現力は、非異性グラフを区別する能力を指し、ノード近傍のエンコードに依存します。
この目的に一般的に使用される神経マルチセット機能の脆弱性を調べ、BFAによる表現力を失うGNNの感受性を特徴付ける正式な基準を確立します。
これにより、GNNの堅牢性に対する同性愛、グラフ構造の多様性、特徴エンコーディング、および活性化機能の影響を分析できます。
データセット上のGNN表現性を分解するために必要なビットフリップの数の理論的境界を導き出し、低次元または1ホットのエンコードされた機能を特に敏感なものとして非常に同性愛のグラフで動作する再生活性化GNNを識別します。
10個の実際のデータセットを使用した経験的結果は、主要な理論的洞察の統計的有意性を確認し、表現力が批判的なアプリケーションにおけるBFAリスクを軽減するための実用的な結果を提供します。

要約(オリジナル)

We investigate the vulnerability of Graph Neural Networks (GNNs) to bit-flip attacks (BFAs) by introducing an analytical framework to study the influence of architectural features, graph properties, and their interaction. The expressivity of GNNs refers to their ability to distinguish non-isomorphic graphs and depends on the encoding of node neighborhoods. We examine the vulnerability of neural multiset functions commonly used for this purpose and establish formal criteria to characterize a GNN’s susceptibility to losing expressivity due to BFAs. This enables an analysis of the impact of homophily, graph structural variety, feature encoding, and activation functions on GNN robustness. We derive theoretical bounds for the number of bit flips required to degrade GNN expressivity on a dataset, identifying ReLU-activated GNNs operating on highly homophilous graphs with low-dimensional or one-hot encoded features as particularly susceptible. Empirical results using ten real-world datasets confirm the statistical significance of our key theoretical insights and offer actionable results to mitigate BFA risks in expressivity-critical applications.

arxiv情報

著者 Lorenz Kummer,Wilfried N. Gansterer,Nils M. Kriege
発行日 2025-04-18 16:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On the Relationship Between Robustness and Expressivity of Graph Neural Networks はコメントを受け付けていません

The Binary and Ternary Quantization Can Improve Feature Discrimination

要約

機械学習では、データ表現を簡素化し、ハードウェアへのアルゴリズムの展開を促進するために量子化が広く使用されています。
機械学習における分類の基本的な役割を考えると、分類に対する量子化の影響を調査することが重要です。
現在の研究は主に量子化エラーに焦点を当てており、より高い量子化エラーが一般的に分類性能が低下するという前提で動作します。
しかし、この前提は強固な理論的基盤を欠いており、しばしば経験的な発見と矛盾しています。
たとえば、$ \ {0,1 \} $ – バイナリ量子化や$ \ {0、\ PM1 \} $ $ -RERNARY量子化などの特定の非常に低いビット幅の量子化方法は、高量化エラーを示しているにもかかわらず、元の非定量データと比較して、元の非定量データと比較して同等または優れた分類精度を達成できます。
分類パフォーマンスをより正確に評価するために、量子化エラーを分析する代わりに、量子化されたデータの特徴識別を直接調査することを提案します。
興味深いことに、バイナリと三元の量子化法の両方が、元のデータの特徴識別を劣化するのではなく、改善できることがわかっています。
この顕著なパフォーマンスは、画像、音声、テキストなど、さまざまなデータ型にわたる分類実験を通じて検証されます。

要約(オリジナル)

In machine learning, quantization is widely used to simplify data representation and facilitate algorithm deployment on hardware. Given the fundamental role of classification in machine learning, it is crucial to investigate the impact of quantization on classification. Current research primarily focuses on quantization errors, operating under the premise that higher quantization errors generally result in lower classification performance. However, this premise lacks a solid theoretical foundation and often contradicts empirical findings. For instance, certain extremely low bit-width quantization methods, such as $\{0,1\}$-binary quantization and $\{0, \pm1\}$-ternary quantization, can achieve comparable or even superior classification accuracy compared to the original non-quantized data, despite exhibiting high quantization errors. To more accurately evaluate classification performance, we propose to directly investigate the feature discrimination of quantized data, instead of analyzing its quantization error. Interestingly, it is found that both binary and ternary quantization methods can improve, rather than degrade, the feature discrimination of the original data. This remarkable performance is validated through classification experiments across various data types, including images, speech, and texts.

arxiv情報

著者 Weizhi Lu,Mingrui Chen,Weiyu Li
発行日 2025-04-18 16:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The Binary and Ternary Quantization Can Improve Feature Discrimination はコメントを受け付けていません

Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse

要約

多くの作品は、フレックスグリッドネットワークでのルーティングとスペクトル割り当ての補強学習(RL)を調査していますが、このパラダイムを使用している生産システムにもかかわらず、これまでの1つの作業のみがフレックスレートトランスポンダーを備えた固定グリッドのRLを調査しました。
Flex-Rate Transpondersにより、既存のLightPathが新しいサービスに対応することができます。これは、LightPath Reuse(RWA-LR)を使用したルーティングと波長の割り当てと呼ばれるタスクです。
この問題を再検討し、RWA-LRのヒューリスティックアルゴリズムの徹底的なベンチマークを提示します。これは、候補パスが全長ではなくホップ数で順序付けられるとスループットが6%増加することが示されています。
グラフ構造データを活用するために、ポリシーと値関数のグラフ注意ネットワークを使用してRWA-LRのRLエージェントをトレーニングします。
私たちは方法論の詳細と、再現のためのすべてのコードのすべてのコードを提供します。
以前の最先端のRLアプローチを2.5%(17.4 Tbpsは追加のスループットを意味する)、最高のヒューリスティックを1.2%(8.5 Tbpsは追加のスループットを意味します)よりも優れています。
この限界ゲインは、Long Horizo​​nリソース割り当てタスクで効果的なRLポリシーを学習することの難しさを強調しています。

要約(オリジナル)

Many works have investigated reinforcement learning (RL) for routing and spectrum assignment on flex-grid networks but only one work to date has examined RL for fixed-grid with flex-rate transponders, despite production systems using this paradigm. Flex-rate transponders allow existing lightpaths to accommodate new services, a task we term routing and wavelength assignment with lightpath reuse (RWA-LR). We re-examine this problem and present a thorough benchmarking of heuristic algorithms for RWA-LR, which are shown to have 6% increased throughput when candidate paths are ordered by number of hops, rather than total length. We train an RL agent for RWA-LR with graph attention networks for the policy and value functions to exploit the graph-structured data. We provide details of our methodology and open source all of our code for reproduction. We outperform the previous state-of-the-art RL approach by 2.5% (17.4 Tbps mean additional throughput) and the best heuristic by 1.2% (8.5 Tbps mean additional throughput). This marginal gain highlights the difficulty in learning effective RL policies on long horizon resource allocation tasks.

arxiv情報

著者 Michael Doherty,Alejandra Beghelli
発行日 2025-04-18 16:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NI, cs.SY, eess.SY | Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse はコメントを受け付けていません

Transformer Encoder and Multi-features Time2Vec for Financial Prediction

要約

財務予測は、時系列分析と信号処理の複雑で困難なタスクであり、短期変動と長期的な時間的依存関係の両方をモデル化すると予想されます。
トランスは、主に注意メカニズムを使用した自然言語処理で顕著な成功を収め、時系列コミュニティにも影響を与えました。
短距離と長距離の依存関係の両方をキャプチャする能力は、金融市場を理解し、価格パターンを認識し、ストック予測におけるトランスのアプリケーションを成功させるのに役立ちます。
以前の研究では、主に個々の機能と特異な予測に焦点を当てていますが、それはより広範な市場動向を理解するモデルの能力を制限しています。
現実には、金融や技術などのセクター内で、同じ業界に属する企業は、しばしば相関した株価の動きを示します。
このホワイトペーパーでは、Time2Vecをトランスモデルのエンコーダーと統合することにより、新しいニューラルネットワークアーキテクチャを開発します。
さまざまな市場の研究に基づいて、新しい相関特徴選択方法を提案します。
複数のハイパーパラメーターの包括的な微調整を通じて、ベンチマークモデルに対する結果の比較分析を実施します。
私たちの方法は、位置エンコーディングなどの他の最先端のエンコーディング方法を上回ると結論付けており、相関機能を選択することで複数の株価を予測する精度が向上すると結論付けています。

要約(オリジナル)

Financial prediction is a complex and challenging task of time series analysis and signal processing, expected to model both short-term fluctuations and long-term temporal dependencies. Transformers have remarkable success mostly in natural language processing using attention mechanism, which also influenced the time series community. The ability to capture both short and long-range dependencies helps to understand the financial market and to recognize price patterns, leading to successful applications of Transformers in stock prediction. Although, the previous research predominantly focuses on individual features and singular predictions, that limits the model’s ability to understand broader market trends. In reality, within sectors such as finance and technology, companies belonging to the same industry often exhibit correlated stock price movements. In this paper, we develop a novel neural network architecture by integrating Time2Vec with the Encoder of the Transformer model. Based on the study of different markets, we propose a novel correlation feature selection method. Through a comprehensive fine-tuning of multiple hyperparameters, we conduct a comparative analysis of our results against benchmark models. We conclude that our method outperforms other state-of-the-art encoding methods such as positional encoding, and we also conclude that selecting correlation features enhance the accuracy of predicting multiple stock prices.

arxiv情報

著者 Nguyen Kim Hai Bui,Nguyen Duy Chien,Péter Kovács,Gergő Bognár
発行日 2025-04-18 17:07:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | Transformer Encoder and Multi-features Time2Vec for Financial Prediction はコメントを受け付けていません

NRGBoost: Energy-Based Generative Boosted Trees

要約

構造化されていないデータドメインにおける深い学習の支配が高まっているにもかかわらず、ランダムフォレスト(RF)や勾配ブーストされた決定ツリー(GBDT)などのツリーベースの方法は、依然として表形式データの識別タスクを処理するための主力です。
データ密度を明示的にモデル化することに焦点を当てたこれらの一般的なアルゴリズムの生成的拡張機能(正規化定数まで)を検討するため、サンプリング以外に他のアプリケーションを可能にします。
主な貢献として、Xgboostなどの人気ライブラリに実装されている2次ブーストに類似したエネルギーベースの生成ブーストアルゴリズムを提案します。
任意の入力変数を介して推論タスクを処理できる生成モデルを作成したにもかかわらず、提案されたアルゴリズムは、多くの現実世界の表形式データセットでGBDTと同様の識別パフォーマンスを達成できることを示しています。
同時に、サンプリングのためにニューラルネットワークベースのモデルとも競争力があることを示します。
コードはhttps://github.com/ajoo/nrgboostで入手できます。

要約(オリジナル)

Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second-order boosting implemented in popular libraries like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural-network-based models for sampling. Code is available at https://github.com/ajoo/nrgboost.

arxiv情報

著者 João Bravo
発行日 2025-04-18 17:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | NRGBoost: Energy-Based Generative Boosted Trees はコメントを受け付けていません