KARMA: A Multilevel Decomposition Hybrid Mamba Framework for Multivariate Long-Term Time Series Forecasting

要約

多変量の長期的かつ効率的な時系列予測は、さまざまな実用的なアプリケーションの重要な要件であり、分解モデリングを必要とする時系列データには複雑なインターリービング時間ダイナミクスがあります。
従来の時系列分解方法は単一であり、固定ルールに依存しています。これは、シリーズの潜在的な情報をマイニングし、複雑なシリーズの動的特性に適応するには不十分です。
一方、時系列予測の変圧器ベースのモデルは、高い計算の複雑さのために長いシーケンスと複雑な動的関係を効果的にモデル化するための闘争です。
これらの制限を克服するために、カルマを導入し、適応時間チャネル分解モジュール(ATCD)を使用して、トレンドと季節コンポーネントを動的に抽出します。
さらに、ハイブリッド周波数時間分解モジュール(HFT​​D)を統合して、シリーズを周波数ドメインと時間領域にさらに分解します。
これらのコンポーネントは、マルチスケールのMambaベースのKarmablockと組み合わされて、調整された方法でグローバル情報とローカル情報を効率的に処理します。
多様なドメインからの8つの実際のデータセットでの実験は、Karmaが予測精度と計算効率の両方で主流のベースライン方法を大幅に上回ることを十分に示しています。
コードと完全な結果は、このリポジトリで入手できます:https://github.com/yedadasd/karma

要約(オリジナル)

Multivariate long-term and efficient time series forecasting is a key requirement for a variety of practical applications, and there are complex interleaving time dynamics in time series data that require decomposition modeling. Traditional time series decomposition methods are single and rely on fixed rules, which are insufficient for mining the potential information of the series and adapting to the dynamic characteristics of complex series. On the other hand, the Transformer-based models for time series forecasting struggle to effectively model long sequences and intricate dynamic relationships due to their high computational complexity. To overcome these limitations, we introduce KARMA, with an Adaptive Time Channel Decomposition module (ATCD) to dynamically extract trend and seasonal components. It further integrates a Hybrid Frequency-Time Decomposition module (HFTD) to further decompose Series into frequency-domain and time-domain. These components are coupled with multi-scale Mamba-based KarmaBlock to efficiently process global and local information in a coordinated manner. Experiments on eight real-world datasets from diverse domains well demonstrated that KARMA significantly outperforms mainstream baseline methods in both predictive accuracy and computational efficiency. Code and full results are available at this repository: https://github.com/yedadasd/KARMA

arxiv情報

著者 Hang Ye,Gaoxiang Duan,Haoran Zeng,Yangxin Zhu,Lingxue Meng,Xiaoying Zheng,Yongxin Zhu
発行日 2025-06-10 16:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | KARMA: A Multilevel Decomposition Hybrid Mamba Framework for Multivariate Long-Term Time Series Forecasting はコメントを受け付けていません

Implicit Neural Representations for Chemical Reaction Paths

要約

ニューラルネットワークを最適化して、最小エネルギーパスを連続関数として表すことができ、Nudged Elastic Band(NEB)のような離散パス検索メソッドに柔軟な代替品を提供できることを示します。
当社のアプローチは、接線方向のエネルギー勾配を破棄し、遷移状態の即時推定を可能にする損失関数でトレーニングされたネットワークで反応経路をパラメーター化します。
最初に2次元のポテンシャルに関する方法を検証し、次に(i)初期推測の不十分な推測が非物理的なパスを生成する、(ii)複数の競合する経路が存在する、または(iii)反応が複雑なマルチステップメカニズムに従っている場合、挑戦的な原子システムでNEBよりもその利点を実証します。
結果は、この方法の汎用性を強調しています。たとえば、最適化中のサンプリング戦略への簡単な調整は、ローカル最小ソリューションの脱出に役立ちます。
最後に、低次元の設定では、単一のニューラルネットワークが既存のパスから学習し、目に見えないシステムに一般化できることを実証し、普遍的な反応経路表現の可能性を示しています。

要約(オリジナル)

We show that neural networks can be optimized to represent minimum energy paths as continuous functions, offering a flexible alternative to discrete path-search methods like Nudged Elastic Band (NEB). Our approach parameterizes reaction paths with a network trained on a loss function that discards tangential energy gradients and enables instant estimation of the transition state. We first validate the method on two-dimensional potentials and then demonstrate its advantages over NEB on challenging atomistic systems where (i) poor initial guesses yield unphysical paths, (ii) multiple competing paths exist, or (iii) the reaction follows a complex multi-step mechanism. Results highlight the versatility of the method: for instance, a simple adjustment to the sampling strategy during optimization can help escape local-minimum solutions. Finally, in a low-dimensional setting, we demonstrate that a single neural network can learn from existing paths and generalize to unseen systems, showing promise for a universal reaction path representation.

arxiv情報

著者 Kalyan Ramakrishnan,Lars L. Schaaf,Chen Lin,Guangrun Wang,Philip Torr
発行日 2025-06-10 16:12:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph | Implicit Neural Representations for Chemical Reaction Paths はコメントを受け付けていません

Epistemic Uncertainty in Conformal Scores: A Unified Approach

要約

コンフォーマル予測方法は、分布のない保証を持つ予測バンドを作成しますが、認識論的な不確実性を明示的にキャプチャしないため、データスパース領域の自信過剰予測につながる可能性があります。
この制限に対処するために最近のコンフォーマルスコアが開発されていますが、通常、回帰や分位回帰などの特定のタスク向けに設計されています。
さらに、彼らは認識論的な不確実性のために特定のモデリングの選択に依存し、適用性を制限しています。
認識論的不確実性を明示的に統合することにより、任意のコンフォーマルスコアを強化するモデルと存在するアプローチである$ \ texttt {epicscore} $を紹介します。
ガウスプロセス、モンテカルロドロップアウト、またはベイジアンアディティブ回帰ツリーなどのベイジアンテクニックを活用して、$ \ texttt {epicscore} $は、データが豊富なコンパクト間隔を維持しながら、限られたデータのある領域の予測間隔を適応的に拡張します。
他の適合方法と同様に、有限サンプルの限界カバレッジを保持します。
さらに、漸近条件付きカバレッジも実現します。
実験は、既存の方法と比較してその良好なパフォーマンスを示しています。
任意のベイジアンモデルとの互換性のために設計されていますが、流通のない保証を備えた$ \ texttt {epicscore} $は、予測問題の不確実性の定量化のための汎用フレームワークを提供します。

要約(オリジナル)

Conformal prediction methods create prediction bands with distribution-free guarantees but do not explicitly capture epistemic uncertainty, which can lead to overconfident predictions in data-sparse regions. Although recent conformal scores have been developed to address this limitation, they are typically designed for specific tasks, such as regression or quantile regression. Moreover, they rely on particular modeling choices for epistemic uncertainty, restricting their applicability. We introduce $\texttt{EPICSCORE}$, a model-agnostic approach that enhances any conformal score by explicitly integrating epistemic uncertainty. Leveraging Bayesian techniques such as Gaussian Processes, Monte Carlo Dropout, or Bayesian Additive Regression Trees, $\texttt{EPICSCORE}$ adaptively expands predictive intervals in regions with limited data while maintaining compact intervals where data is abundant. As with any conformal method, it preserves finite-sample marginal coverage. Additionally, it also achieves asymptotic conditional coverage. Experiments demonstrate its good performance compared to existing methods. Designed for compatibility with any Bayesian model, but equipped with distribution-free guarantees, $\texttt{EPICSCORE}$ provides a general-purpose framework for uncertainty quantification in prediction problems.

arxiv情報

著者 Luben M. C. Cabezas,Vagner S. Santos,Thiago R. Ramos,Rafael Izbicki
発行日 2025-06-10 16:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Epistemic Uncertainty in Conformal Scores: A Unified Approach はコメントを受け付けていません

Multi-SpaCE: Multi-Objective Subsequence-based Sparse Counterfactual Explanations for Multivariate Time Series Classification

要約

ディープラーニングシステムは複雑なタスクに優れていますが、多くの場合透明性がなく、重要なアプリケーションでの使用を制限します。
説明可能な人工知能(XAI)内のコアツールである反事実的説明は、予測される結果を変更するために入力の最小限の変更を識別することにより、モデルの決定に関する洞察を提供します。
ただし、時系列データの既存の方法は、単変量の仮定、修正に関する厳格な制約、または妥当性保証の欠如によって制限されます。
このペーパーでは、多変量時系列の多目的反事実的説明方法であるマルチスペースを紹介します。
非支配的なランキング遺伝的アルゴリズムII(NSGA-II)を使用して、マルチスペースのバランスの近接、スパース、妥当性、および連続性を使用します。
ほとんどの方法とは異なり、完全な妥当性を保証し、多変量データをサポートし、ソリューションのパレートの前面を提供し、異なるエンドユーザーのニーズに柔軟性を可能にします。
多様なデータセットでの包括的な実験は、マルチスペースが完全な妥当性を一貫して達成し、既存の方法と比較して優れたパフォーマンスを提供する能力を示しています。

要約(オリジナル)

Deep Learning systems excel in complex tasks but often lack transparency, limiting their use in critical applications. Counterfactual explanations, a core tool within eXplainable Artificial Intelligence (XAI), offer insights into model decisions by identifying minimal changes to an input to alter its predicted outcome. However, existing methods for time series data are limited by univariate assumptions, rigid constraints on modifications, or lack of validity guarantees. This paper introduces Multi-SpaCE, a multi-objective counterfactual explanation method for multivariate time series. Using non-dominated ranking genetic algorithm II (NSGA-II), Multi-SpaCE balances proximity, sparsity, plausibility, and contiguity. Unlike most methods, it ensures perfect validity, supports multivariate data and provides a Pareto front of solutions, enabling flexibility to different end-user needs. Comprehensive experiments in diverse datasets demonstrate the ability of Multi-SpaCE to consistently achieve perfect validity and deliver superior performance compared to existing methods.

arxiv情報

著者 Mario Refoyo,David Luengo
発行日 2025-06-10 16:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, stat.ML | Multi-SpaCE: Multi-Objective Subsequence-based Sparse Counterfactual Explanations for Multivariate Time Series Classification はコメントを受け付けていません

Protriever: End-to-End Differentiable Protein Homology Search for Fitness Prediction

要約

フィットネス予測、タンパク質設計、構造モデリング、タンパク質間相互作用などの幅広いタンパク質モデリングタスクには、相同タンパク質配列の取得が不可欠です。
従来のワークフローは、複数のシーケンスアラインメント(MSA)を介して最初にホモログを取得する2段階のプロセスに依存しており、次にこれらのアライメントの1つ以上でモデルをトレーニングします。
ただし、MSAベースの検索は計算上高価であり、非常に多様なシーケンスまたは複雑な挿入と削除パターンに苦労しており、ダウンストリームモデリングの目的とは無関係に動作します。
ターゲットタスクのトレーニングを同時にトレーニングしながら、関連するホモログを取得することを学ぶエンドツーエンドの微分フレームワークであるProtrieverを紹介します。
プロテインフィットネス予測に適用すると、Protrieverは、MSAベースのホモログ検索に依存しているシーケンスベースのモデルと比較して、最先端のパフォーマンスを実現し、効率的なベクトル検索を通じて2桁高速になります。
Protrieverは、アーキテクチャとタスクに依存していないものであり、推論時間に異なる検索戦略とタンパク質データベースに柔軟に適応することができます。

要約(オリジナル)

Retrieving homologous protein sequences is essential for a broad range of protein modeling tasks such as fitness prediction, protein design, structure modeling, and protein-protein interactions. Traditional workflows have relied on a two-step process: first retrieving homologs via Multiple Sequence Alignments (MSA), then training models on one or more of these alignments. However, MSA-based retrieval is computationally expensive, struggles with highly divergent sequences or complex insertions & deletions patterns, and operates independently of the downstream modeling objective. We introduce Protriever, an end-to-end differentiable framework that learns to retrieve relevant homologs while simultaneously training for the target task. When applied to protein fitness prediction, Protriever achieves state-of-the-art performance compared to sequence-based models that rely on MSA-based homolog retrieval, while being two orders of magnitude faster through efficient vector search. Protriever is both architecture- and task-agnostic, and can flexibly adapt to different retrieval strategies and protein databases at inference time — offering a scalable alternative to alignment-centric approaches.

arxiv情報

著者 Ruben Weitzman,Peter Mørch Groth,Lood Van Niekerk,Aoi Otani,Yarin Gal,Debora Marks,Pascal Notin
発行日 2025-06-10 16:24:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Protriever: End-to-End Differentiable Protein Homology Search for Fitness Prediction はコメントを受け付けていません

Through a Steerable Lens: Magnifying Neural Network Interpretability via Phase-Based Extrapolation

要約

深いニューラルネットワークの内部表現と決定メカニズムを理解することは、依然として重要なオープンな課題です。
既存の解釈可能性方法は、影響力のある入力領域を識別することがよくありますが、モデルがクラスをどのように区別するか、または特定の変更があるカテゴリから別のカテゴリにどのような入力を移行するかを解明しない場合があります。
これらの制限に対処するために、ネットワーク勾配を無限の動きの形として扱うことにより、クラス間の暗黙のパスを視覚化する新しいフレームワークを提案します。
位相ベースの動きの倍率からインスピレーションを得て、最初に変換可能な変換を使用して画像を分解します。
勾配を完全に統合してフルパスをトレースするのではなく、ワンステップ勾配を入力に増幅し、線形外挿を実行して、モデルがソースからターゲットクラスにどのように移動するかを露出させます。
操縦可能なピラミッドドメインで動作することにより、これらの増幅された勾配は、分類器の最も敏感な方向を強調する、意味的に意味のある空間的にコヒーレントなモーフを生成し、決定境界のジオメトリに関する洞察を与えます。
合成データセットと現実世界の両方のデータセットの実験は、私たちの位相に焦点を当てた外挿が知覚的に整列した意味的に意味のある変換をもたらし、神経分類器の内部表現に斬新で解釈可能なレンズを提供することを示しています。

要約(オリジナル)

Understanding the internal representations and decision mechanisms of deep neural networks remains a critical open challenge. While existing interpretability methods often identify influential input regions, they may not elucidate how a model distinguishes between classes or what specific changes would transition an input from one category to another. To address these limitations, we propose a novel framework that visualizes the implicit path between classes by treating the network gradient as a form of infinitesimal motion. Drawing inspiration from phase-based motion magnification, we first decompose images using invertible transforms-specifically the Complex Steerable Pyramid-then compute class-conditional gradients in the transformed space. Rather than iteratively integrating the gradient to trace a full path, we amplify the one-step gradient to the input and perform a linear extrapolation to expose how the model moves from source to target class. By operating in the steerable pyramid domain, these amplified gradients produce semantically meaningful, spatially coherent morphs that highlight the classifier’s most sensitive directions, giving insight into the geometry of its decision boundaries. Experiments on both synthetic and real-world datasets demonstrate that our phase-focused extrapolation yields perceptually aligned, semantically meaningful transformations, offering a novel, interpretable lens into neural classifiers’ internal representations.

arxiv情報

著者 Farzaneh Mahdisoltani,Saeed Mahdisoltani,Roger B. Grosse,David J. Fleet
発行日 2025-06-10 16:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Through a Steerable Lens: Magnifying Neural Network Interpretability via Phase-Based Extrapolation はコメントを受け付けていません

BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly

要約

部品を完全な全体に組み合わせるプロセスであるシェイプアセンブリは、幅広い現実世界のアプリケーションを備えた重要なロボットスキルです。
さまざまなアセンブリタスクの中で、幾何学的なアセンブリ – 壊れた部分が元の形(粉砕されたボウルの再構築など)に再構築される場所が特に困難です。
これには、ロボットが、さまざまな断片での把握、組み立て、およびその後の両手協調操作のための幾何学的キューを認識する必要があります。
このホワイトペーパーでは、ポイントレベルのアフォーダンスの幾何学的一般化を活用して、長期ホリゾンの作用シーケンスを備えた幾何学的なアセンブリにおける双方向のコラボレーションを認識しています。
壊れた部分の幾何学的多様性によって引き起こされる評価のあいまいさに対処するために、幾何学的な種類とグローバルな再現性を特徴とする現実世界のベンチマークを紹介します。
広範な実験は、以前のアフォーダンスベースと模倣ベースの方法の両方で、私たちのアプローチの優位性を示しています。
プロジェクトページ:https://sites.google.com/view/biassembly/。

要約(オリジナル)

Shape assembly, the process of combining parts into a complete whole, is a crucial robotic skill with broad real-world applications. Among various assembly tasks, geometric assembly–where broken parts are reassembled into their original form (e.g., reconstructing a shattered bowl)–is particularly challenging. This requires the robot to recognize geometric cues for grasping, assembly, and subsequent bimanual collaborative manipulation on varied fragments. In this paper, we exploit the geometric generalization of point-level affordance, learning affordance aware of bimanual collaboration in geometric assembly with long-horizon action sequences. To address the evaluation ambiguity caused by geometry diversity of broken parts, we introduce a real-world benchmark featuring geometric variety and global reproducibility. Extensive experiments demonstrate the superiority of our approach over both previous affordance-based and imitation-based methods. Project page: https://sites.google.com/view/biassembly/.

arxiv情報

著者 Yan Shen,Ruihai Wu,Yubin Ke,Xinyuan Song,Zeyi Li,Xiaoqi Li,Hongwei Fan,Haoran Lu,Hao dong
発行日 2025-06-10 16:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly はコメントを受け付けていません

Gumbel-max List Sampling for Distribution Coupling with Multiple Samples

要約

結合確率分布の問題の緩和を研究します。1つの分布からサンプルのリストが生成され、これらのサンプルのいずれかが他の分布から生成されたサンプルと同一である場合、受け入れが宣言されます。
サンプルを生成するための新しい方法を提案します。これにより、Daliri et al。
(ARXIV:2408.07978)結合確率分布のため。
また、受け入れ確率に対応する下限を確立します。これは、リストを一致するリストと呼びます。
次に、セットアップの2つのアプリケーションについて説明します。
まず、マルチドラフトの投機的サンプリングの新しいメカニズムを開発し、実装が簡単で、SpectrやSpecInferなどのベースラインと競合するパフォーマンスを実現します。
また、私たちの方法では、既存のスキームではサポートされていない出力トークンに関するある程度の起草の不変性が保証されます。
また、トークンレベルの受け入れ確率で理論的な下限を提供します。
2番目のアプリケーションとして、ソースサンプルが圧縮され、それぞれが独立したサイド情報を持つ複数のデコーダーが利用できる設定で、副情報を使用して分布した損失圧縮を検討します。
Gumbel-Maxサンプリングの一般化に基づいた圧縮手法を提案し、合成ガウス源とMNIST画像データセットを含む実験に大幅な利益をもたらすことを示します。

要約(オリジナル)

We study a relaxation of the problem of coupling probability distributions — a list of samples is generated from one distribution and an accept is declared if any one of these samples is identical to the sample generated from the other distribution. We propose a novel method for generating samples, which extends the Gumbel-max sampling suggested in Daliri et al. (arXiv:2408.07978) for coupling probability distributions. We also establish a corresponding lower bound on the acceptance probability, which we call the list matching lemma. We next discuss two applications of our setup. First, we develop a new mechanism for multi-draft speculative sampling that is simple to implement and achieves performance competitive with baselines such as SpecTr and SpecInfer across a range of language tasks. Our method also guarantees a certain degree of drafter invariance with respect to the output tokens which is not supported by existing schemes. We also provide a theoretical lower bound on the token level acceptance probability. As our second application, we consider distributed lossy compression with side information in a setting where a source sample is compressed and available to multiple decoders, each with independent side information. We propose a compression technique that is based on our generalization of Gumbel-max sampling and show that it provides significant gains in experiments involving synthetic Gaussian sources and the MNIST image dataset.

arxiv情報

著者 Joseph Rowan,Buu Phan,Ashish Khisti
発行日 2025-06-10 16:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Gumbel-max List Sampling for Distribution Coupling with Multiple Samples はコメントを受け付けていません

Exact Upper and Lower Bounds for the Output Distribution of Neural Networks with Random Inputs

要約

Noisy(確率的)入力の対象となるサポート全体にわたって、ニューラルネットワーク(NN)の出力(NN)の累積分布関数(CDF)の正確な上限と下限を導き出します。
解像度が増加するにつれて、上限と下限はそのドメインを介して真のCDFに収束します。
私たちの方法は、連続的に単調な区分的に2回の連続的に微分可能な活性化関数(例:Relu、Tanh、Softmax)および畳み込みアプローチの範囲を超えた畳み込みNNSを使用して、Feedforward NNに適用されます。
私たちのアプローチの斬新で道具的なツールは、一般的なNNSをrelu nnsと結び付けることです。
次に、Relu NNベースの境界を使用して、NN出力のCDFの上限と下限を導出します。
実験は、この方法が、そのサポートよりも予測出力分布の保証境界をもたらし、競合するアプローチとは対照的に、正確なエラー保証を提供することを示しています。

要約(オリジナル)

We derive exact upper and lower bounds for the cumulative distribution function (cdf) of the output of a neural network (NN) over its entire support subject to noisy (stochastic) inputs. The upper and lower bounds converge to the true cdf over its domain as the resolution increases. Our method applies to any feedforward NN using continuous monotonic piecewise twice continuously differentiable activation functions (e.g., ReLU, tanh and softmax) and convolutional NNs, which were beyond the scope of competing approaches. The novelty and instrumental tool of our approach is to bound general NNs with ReLU NNs. The ReLU NN-based bounds are then used to derive the upper and lower bounds of the cdf of the NN output. Experiments demonstrate that our method delivers guaranteed bounds of the predictive output distribution over its support, thus providing exact error guarantees, in contrast to competing approaches.

arxiv情報

著者 Andrey Kofnov,Daniel Kapla,Ezio Bartocci,Efstathia Bura
発行日 2025-06-10 16:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 62H10, cs.LG, G.3, stat.ME, stat.ML | Exact Upper and Lower Bounds for the Output Distribution of Neural Networks with Random Inputs はコメントを受け付けていません

On Finetuning Tabular Foundation Models

要約

基礎モデルは、表形式の深い学習における新たな研究方向です。
特に、TABPFNV2は最近、モデルパラメーターをターゲットデータセットに適応させないコンテキスト学習パラダイムを使用して、小規模データセットで従来のGBDTベースの方法よりも優れたパフォーマンスを主張しました。
ただし、表形式の基礎モデルを適応させるための最適な微調整アプローチ、およびこの適応が内部メカニズムをどのように再形成するかは、露出度が低いままです。
以前の作品は以前の基礎モデルの微調整を研究しましたが、一貫性のない調査結果とTabpFNV2のユニークなアーキテクチャは、新たな調査を必要とします。
これらの質問に対処するために、最初に多様なデータセットでさまざまな微調整戦略を体系的に評価します。
私たちの調査結果は、時間効率と有効性の観点からTABPFNV2の最も実用的なソリューションとして完全な微調整を確立しています。
次に、FinetuningがTabpfnv2の内部メカニズムをどのように変化させ、検索モデルに類似しているかを調査します。
微調整の成功は、勾配ベースの適応後、テストオブジェクトのクエリ表現のDOT積と、コンテキスト内トレーニングオブジェクトのキー表現がターゲットの類似性をより正確に反映しているという事実に由来することを明らかにします。
これにより類似性が改善されると、Finetuned TabpFNV2は、関連するコンテキスト内サンプルを適切に重み付けし、検索ベースの予測ロジックを改善することにより、ターゲット依存性をより適切に近似できます。
実用的な観点から、最大50Kオブジェクトを持つデータセットでTabpfnv2を獲得することができ、ほぼすべてのタスクでパフォーマンスの改善を観察しました。
より正確には、I.I.D。を使用したアカデミックデータセットについて
スプリット、Finetuningを使用すると、Tabpfnv2は最先端の結果を達成できますが、段階的な時間的シフトとリッチ機能セットを備えたデータセットでは、TabpFNV2は安定性が低く、以前の方法はより良くなります。

要約(オリジナル)

Foundation models are an emerging research direction in tabular deep learning. Notably, TabPFNv2 recently claimed superior performance over traditional GBDT-based methods on small-scale datasets using an in-context learning paradigm, which does not adapt model parameters to target datasets. However, the optimal finetuning approach for adapting tabular foundational models, and how this adaptation reshapes their internal mechanisms, remains underexplored. While prior works studied finetuning for earlier foundational models, inconsistent findings and TabPFNv2’s unique architecture necessitate fresh investigation. To address these questions, we first systematically evaluate various finetuning strategies on diverse datasets. Our findings establish full finetuning as the most practical solution for TabPFNv2 in terms of time-efficiency and effectiveness. We then investigate how finetuning alters TabPFNv2’s inner mechanisms, drawing an analogy to retrieval-augmented models. We reveal that the success of finetuning stems from the fact that after gradient-based adaptation, the dot products of the query-representations of test objects and the key-representations of in-context training objects more accurately reflect their target similarity. This improved similarity allows finetuned TabPFNv2 to better approximate target dependency by appropriately weighting relevant in-context samples, improving the retrieval-based prediction logic. From the practical perspective, we managed to finetune TabPFNv2 on datasets with up to 50K objects, observing performance improvements on almost all tasks. More precisely, on academic datasets with I.I.D. splits, finetuning allows TabPFNv2 to achieve state-of-the-art results, while on datasets with gradual temporal shifts and rich feature sets, TabPFNv2 is less stable and prior methods remain better.

arxiv情報

著者 Ivan Rubachev,Akim Kotelnikov,Nikolay Kartashev
発行日 2025-06-10 16:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | On Finetuning Tabular Foundation Models はコメントを受け付けていません