MLPs Learn In-Context on Regression and Classification Tasks

要約

入力のみの模範からタスクを解決する顕著な能力であるコンテキスト学習(ICL)は、多くの場合、変圧器モデルのユニークな特徴であると想定されます。
一般的に採用されている合成ICLタスクを調べることにより、多層パーセプロン(MLP)もコンテキスト内を学習できることを実証します。
さらに、MLPSおよび密接に関連するMLPミキサーモデルは、この設定で同じ計算予算の下で変圧器と同等のコンテキストで学習します。
さらに、MLPは、コンテキスト内分類に密接に関連するリレーショナル推論をテストするように設計された心理学からの一連の古典的なタスクでトランスを上回ることを示します。
これらの結果は、注意ベースのアーキテクチャを超えてコンテキスト内学習を研究する必要性を強調し、同時に、リレーショナルタスクを解決するMLPの能力に対する以前の議論にも挑戦しています。
全体として、私たちの結果は、合成環境でのMLPの予期せぬ能力を強調し、トランスアーキテクチャのAll-MLPの代替案に対する関心の高まりをサポートしています。
実際のタスクでMLPが大規模なトランスに対してどのように機能するか、そしてパフォーマンスギャップがどこから発生するかは不明のままです。
注意ベースのスキームの潜在的な比較利点をよりよく理解するために、より複雑な設定でのこれらのアーキテクチャのさらなる調査をお勧めします。

要約(オリジナル)

In-context learning (ICL), the remarkable ability to solve a task from only input exemplars, is often assumed to be a unique hallmark of Transformer models. By examining commonly employed synthetic ICL tasks, we demonstrate that multi-layer perceptrons (MLPs) can also learn in-context. Moreover, MLPs, and the closely related MLP-Mixer models, learn in-context comparably with Transformers under the same compute budget in this setting. We further show that MLPs outperform Transformers on a series of classical tasks from psychology designed to test relational reasoning, which are closely related to in-context classification. These results underscore a need for studying in-context learning beyond attention-based architectures, while also challenging prior arguments against MLPs’ ability to solve relational tasks. Altogether, our results highlight the unexpected competence of MLPs in a synthetic setting, and support the growing interest in all-MLP alternatives to Transformer architectures. It remains unclear how MLPs perform against Transformers at scale on real-world tasks, and where a performance gap may originate. We encourage further exploration of these architectures in more complex settings to better understand the potential comparative advantage of attention-based schemes.

arxiv情報

著者 William L. Tong,Cengiz Pehlevan
発行日 2025-02-25 16:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE | MLPs Learn In-Context on Regression and Classification Tasks はコメントを受け付けていません

Learning Multi-agent Multi-machine Tending by Mobile Robots

要約

ロボット工学は、製造業の成長する労働者不足の課題に対処するのに役立ちます。
そのため、Machine Thingはタスクコラボレーションロボットに取り組むことができるタスクであり、生産性を高めることができます。
それにもかかわらず、そのセクターに展開されている既存のロボットシステムは、固定されたシングルアームセットアップに依存していますが、モバイルロボットはより柔軟性とスケーラビリティを提供できます。
この作業では、適切な観察と報酬の設計を備えたマルチエージェント強化学習(MARL)技術に基づいて、モバイルロボットによるマルチエージェントマルチマシンティング学習フレームワークを紹介します。
さらに、注意ベースのエンコーディングメカニズムが開発され、マルチ式の近位ポリシー最適化(MAPPO)アルゴリズムに統合され、機械式シナリオのパフォーマンスを向上させます。
私たちのモデル(AB-Mappo)は、タスクの成功、安全性、リソースの利用に関して、この新しい挑戦的なシナリオでマッポを上回りました。
さらに、さまざまな設計上の決定をサポートするために、広範なアブレーション研究を提供しました。

要約(オリジナル)

Robotics can help address the growing worker shortage challenge of the manufacturing industry. As such, machine tending is a task collaborative robots can tackle that can also highly boost productivity. Nevertheless, existing robotics systems deployed in that sector rely on a fixed single-arm setup, whereas mobile robots can provide more flexibility and scalability. In this work, we introduce a multi-agent multi-machine tending learning framework by mobile robots based on Multi-agent Reinforcement Learning (MARL) techniques with the design of a suitable observation and reward. Moreover, an attention-based encoding mechanism is developed and integrated into Multi-agent Proximal Policy Optimization (MAPPO) algorithm to boost its performance for machine tending scenarios. Our model (AB-MAPPO) outperformed MAPPO in this new challenging scenario in terms of task success, safety, and resources utilization. Furthermore, we provided an extensive ablation study to support our various design decisions.

arxiv情報

著者 Abdalwhab Abdalwhab,Giovanni Beltrame,Samira Ebrahimi Kahou,David St-Onge
発行日 2025-02-25 16:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Learning Multi-agent Multi-machine Tending by Mobile Robots はコメントを受け付けていません

Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations

要約

グラフ構造データの不確実性を認識する表現を学習する問題に対処するために、新しい確率微分方程式(SDE)フレームワークを提案します。
グラフニューラルの通常の微分方程式(GNODE)は学習ノード表現に有望を示していますが、不確実性を定量化する能力がありません。
これに対処するために、潜在的なグラフ神経確率的微分方程式(LGNSDE)を導入します。これは、認識論的不確実性のベイジアン前後メカニズムを介してランダム性を埋め込み、アレアトリックの不確実性のためのブラウン運動を埋め込むことによりGNODEを強化します。
グラフベースのSDEに対するソリューションの存在と一意性を活用することにより、潜在空間の分散がモデル出力の分散に境界を掲載し、それによって不確実性の推定値に対して理論的に賢明な保証を提供することを証明します。
さらに、LGNSDEは入力の小さな摂動に対して堅牢であり、時間の経過とともに安定性を維持することを数学的に示します。
いくつかのベンチマークにわたる経験的結果は、私たちのフレームワークが分散除外検出、ノイズへの堅牢性、および積極的な学習において競争力があることを示しています。

要約(オリジナル)

We propose a novel Stochastic Differential Equation (SDE) framework to address the problem of learning uncertainty-aware representations for graph-structured data. While Graph Neural Ordinary Differential Equations (GNODEs) have shown promise in learning node representations, they lack the ability to quantify uncertainty. To address this, we introduce Latent Graph Neural Stochastic Differential Equations (LGNSDE), which enhance GNODE by embedding randomness through a Bayesian prior-posterior mechanism for epistemic uncertainty and Brownian motion for aleatoric uncertainty. By leveraging the existence and uniqueness of solutions to graph-based SDEs, we prove that the variance of the latent space bounds the variance of model outputs, thereby providing theoretically sensible guarantees for the uncertainty estimates. Furthermore, we show mathematically that LGNSDEs are robust to small perturbations in the input, maintaining stability over time. Empirical results across several benchmarks demonstrate that our framework is competitive in out-of-distribution detection, robustness to noise, and active learning, underscoring the ability of LGNSDEs to quantify uncertainty reliably.

arxiv情報

著者 Richard Bergna,Sergio Calvo-Ordoñez,Felix L. Opolka,Pietro Liò,Jose Miguel Hernandez-Lobato
発行日 2025-02-25 16:34:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Uncertainty Modeling in Graph Neural Networks via Stochastic Differential Equations はコメントを受け付けていません

Graph Inference with Effective Resistance Queries

要約

グラフ推論の目標は、グラフに関する情報を返すOracleにクエリを使用して、非表示のグラフのプロパティを学習するためのアルゴリズムを設計することです。
グラフの再構築、検証、およびプロパティテストは、すべてのタイプのグラフ推論です。
この作業では、一対の頂点間で有効抵抗(ER)を返すOracleを使用してグラフ推論を研究します。
効果的な抵抗とは、多くの用途を持つ電気回路の研究に由来する距離です。
ただし、ERはグラフ推論の観点からほとんど注意を払っていません。
確かに、$ n $ -vertexグラフは、すべての$ \ binom {n} {2} $可能なERクエリから一意に再構築できることが知られていますが、他にほとんど知られていません。
このギャップには、次のようないくつかの新しい結果に対処します。1。$ o(n)$ – グラフがツリーかどうかをテストするためのクエリアルゴリズム。
1つが他のグラフのサブグラフであると仮定して、2つのグラフが等しいかどうかを決定します。
また、特定の頂点(またはエッジ)がカット頂点(またはカットエッジ)であるかどうかをテストします。
2。グラフが頂点であるかエッジバイコンであるかをテストするためのプロパティテストアルゴリズム。
また、境界程度モデルからERクエリモデルにプロパティテストの結果を適応させるための削減を行います。
これにより、固定サブグラフの$ k $接続性、二極性、平面性、封じ込めをテストするためのERクエリベースのアルゴリズムが得られます。
3.グラフ再構成アルゴリズム。低幅のツリー分解からグラフを再構築するためのアルゴリズムを含む。
$ \ theta(k^2)$ – クエリ、隣接するマトリックス$ a $ a $を回復するための多項式時間アルゴリズム。
同じタスクの$ k $ query、指数タイムアルゴリズム。
また、ERクエリのパワーと最短のパスクエリも比較します。
興味深いことに、2つのクエリモデルの電力が比類のないことを示します。

要約(オリジナル)

The goal of graph inference is to design algorithms for learning properties of a hidden graph using queries to an oracle that returns information about the graph. Graph reconstruction, verification, and property testing are all types of graph inference. In this work, we study graph inference using an oracle that returns the effective resistance (ER) between a pair of vertices. Effective resistance is a distance originating from the study of electrical circuits with many applications. However, ER has received little attention from a graph inference perspective. Indeed, although it is known that an $n$-vertex graph can be uniquely reconstructed from all $\binom{n}{2}$ possible ER queries, little else is known. We address this gap with several new results, including: 1. $O(n)$-query algorithms for testing whether a graph is a tree; deciding whether two graphs are equal assuming one is a subgraph of the other; and testing whether a given vertex (or edge) is a cut vertex (or cut edge). 2. Property testing algorithms, including for testing whether a graph is vertex- or edge-biconnected. We also give a reduction to adapt property testing results from the bounded-degree model to our ER query model. This yields ER-query-based algorithms for testing $k$-connectivity, bipartiteness, planarity, and containment of a fixed subgraph. 3. Graph reconstruction algorithms, including an algorithm for reconstructing a graph from a low-width tree decomposition; a $\Theta(k^2)$-query, polynomial-time algorithm for recovering the adjacency matrix $A$ of a hidden graph, given $A$ with $k$ of its entries deleted; and a $k$-query, exponential-time algorithm for the same task. We also compare the power of ER queries and shortest path queries, which are closely related but better studied. Interestingly, we show that the two query models are incomparable in power.

arxiv情報

著者 Huck Bennett,Mitchell Black,Amir Nayyeri,Evelyn Warton
発行日 2025-02-25 16:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DM, cs.DS, cs.LG | Graph Inference with Effective Resistance Queries はコメントを受け付けていません

WebGames: Challenging General-Purpose Web-Browsing AI Agents

要約

50以上のインタラクティブな課題のコレクションを通じて、汎用WebブラウジングAIエージェントを評価するために設計された包括的なベンチマークスイートであるWebGamesを紹介します。
これらの課題は、基本的なブラウザの相互作用、高度な入力処理、認知タスク、ワークフロー自動化、インタラクティブなエンターテイメント全体の現在のAIシステムの制限を体系的にテストする一方で、人間にとって簡単であるように特別に作成されています。
私たちのフレームワークは、ハーメチックテスト環境を通じて外部依存関係を排除し、検証可能なグラウンドトゥルースソリューションで再現可能な評価を確保します。
GPT-4O、Claude Computer-Use、Gemini-1.5-Pro、QWEN2-VLなど、人間のパフォーマンスに対してQWEN2-VLを含む主要なビジョン言語モデルを評価します。
結果は、人間のパフォーマンスが95.7%と比較して43.1%の成功率のみを達成し、最良のAIシステムが95.7%の成功率のみを達成し、現在のAIシステムの一般的なWeb相互作用パターンを処理する能力の基本的な制限を強調している、実質的な能力ギャップを明らかにしています。
このベンチマークは、webgames.convergence.aiで公開されており、迅速な評価サイクルを促進する軽量のクライアント側の実装を提供します。
モジュラーアーキテクチャと標準化されたチャレンジ仕様を通じて、WebGamesは、より有能なWebブラウジングエージェントの開発における進歩を測定するための堅牢な基盤を提供します。

要約(オリジナル)

We introduce WebGames, a comprehensive benchmark suite designed to evaluate general-purpose web-browsing AI agents through a collection of 50+ interactive challenges. These challenges are specifically crafted to be straightforward for humans while systematically testing the limitations of current AI systems across fundamental browser interactions, advanced input processing, cognitive tasks, workflow automation, and interactive entertainment. Our framework eliminates external dependencies through a hermetic testing environment, ensuring reproducible evaluation with verifiable ground-truth solutions. We evaluate leading vision-language models including GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, and Qwen2-VL against human performance. Results reveal a substantial capability gap, with the best AI system achieving only 43.1% success rate compared to human performance of 95.7%, highlighting fundamental limitations in current AI systems’ ability to handle common web interaction patterns that humans find intuitive. The benchmark is publicly available at webgames.convergence.ai, offering a lightweight, client-side implementation that facilitates rapid evaluation cycles. Through its modular architecture and standardized challenge specifications, WebGames provides a robust foundation for measuring progress in development of more capable web-browsing agents.

arxiv情報

著者 George Thomas,Alex J. Chan,Jikun Kang,Wenqi Wu,Filippos Christianos,Fraser Greenlee,Andy Toulis,Marvin Purtorab
発行日 2025-02-25 16:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | WebGames: Challenging General-Purpose Web-Browsing AI Agents はコメントを受け付けていません

Modeling and Analyzing the Influence of Non-Item Pages on Sequential Next-Item Prediction

要約

ユーザーとアイテム間の相互作用のシーケンスを分析すると、シーケンシャル推奨モデルはユーザーの意図を学習し、次のアイテムについて予測することができます。
アイテムの相互作用の次に、ほとんどのシステムには、項目以外のページと呼ばれるものとのやり取りもあります。これらのページは特定のアイテムとは関係ありませんが、たとえばナビゲーションページなど、ユーザーの興味についての洞察を提供できます。
したがって、これらの非ITEMページを連続的な推奨モデルに含める一般的な方法を提案して、次項目の予測を強化します。
まず、仮説テストフレームワークの催眠術を使用して、次の相互作用に対する非ITEMページの影響を示し、順次推奨モデルで非ITEMページを表す方法を提案します。
その後、人気のあるシーケンシャルの推奨モデルを適応させて、非ITEMページを統合し、さまざまなアイテム表現戦略とノイズの多いデータを処理する能力でパフォーマンスを調査します。
非ITEMページを統合するモデルの一般的な機能を表示するために、制御された設定の合成データセットを作成し、2つの実際のデータセットに非ITEMページを含めることからの改善を評価します。
我々の結果は、非項目ページが貴重な情報源であることを示しており、それらを連続的な推奨モデルに組み込むと、分析されたすべてのモデルアーキテクチャにわたってネクストアイテム予測のパフォーマンスが向上します。

要約(オリジナル)

Analyzing sequences of interactions between users and items, sequential recommendation models can learn user intent and make predictions about the next item. Next to item interactions, most systems also have interactions with what we call non-item pages: these pages are not related to specific items but still can provide insights into the user’s interests, as, for example, navigation pages. We therefore propose a general way to include these non-item pages in sequential recommendation models to enhance next-item prediction. First, we demonstrate the influence of non-item pages on following interactions using the hypotheses testing framework HypTrails and propose methods for representing non-item pages in sequential recommendation models. Subsequently, we adapt popular sequential recommender models to integrate non-item pages and investigate their performance with different item representation strategies as well as their ability to handle noisy data. To show the general capabilities of the models to integrate non-item pages, we create a synthetic dataset for a controlled setting and then evaluate the improvements from including non-item pages on two real-world datasets. Our results show that non-item pages are a valuable source of information, and incorporating them in sequential recommendation models increases the performance of next-item prediction across all analyzed model architectures.

arxiv情報

著者 Elisabeth Fischer,Albin Zehe,Andreas Hotho,Daniel Schlör
発行日 2025-02-25 17:17:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | Modeling and Analyzing the Influence of Non-Item Pages on Sequential Next-Item Prediction はコメントを受け付けていません

Mechanistic PDE Networks for Discovery of Governing Equations

要約

機械的PDEネットワークを提示します。これは、データからの部分微分方程式を管理するモデルです。
機械的PDEネットワークは、神経ネットワークの隠れ表現における時空依存の線形部分微分方程式としての時空間データを表します。
代表されるPDEは、特定のタスクのために解決およびデコードされます。
学習したPDE表現は、ニューラルネットワークの隠れた空間のデータにおける時空間的ダイナミクスを自然に表現し、動的モデリングのパワーの増加を可能にします。
ただし、PDE表現を計算およびメモリ効率の高い方法で解決することは、重要な課題です。
機械的PDEネットワークのモジュールとして機能する線形部分微分方程式に特化した、Native、GPU-Capable、Parallel、Sparse、および微分可能なマルチグリッドソルバーを開発します。
PDEソルバーを活用して、複雑な設定で非線形PDEを発見しながらノイズに堅牢であることを発見できるディスカバリーアーキテクチャを提案します。
反応拡散やナビエストークス方程式など、多くのPDEでPDE発見を検証します。

要約(オリジナル)

We present Mechanistic PDE Networks — a model for discovery of governing partial differential equations from data. Mechanistic PDE Networks represent spatiotemporal data as space-time dependent linear partial differential equations in neural network hidden representations. The represented PDEs are then solved and decoded for specific tasks. The learned PDE representations naturally express the spatiotemporal dynamics in data in neural network hidden space, enabling increased power for dynamical modeling. Solving the PDE representations in a compute and memory-efficient way, however, is a significant challenge. We develop a native, GPU-capable, parallel, sparse, and differentiable multigrid solver specialized for linear partial differential equations that acts as a module in Mechanistic PDE Networks. Leveraging the PDE solver, we propose a discovery architecture that can discover nonlinear PDEs in complex settings while also being robust to noise. We validate PDE discovery on a number of PDEs, including reaction-diffusion and Navier-Stokes equations.

arxiv情報

著者 Adeel Pervez,Efstratios Gavves,Francesco Locatello
発行日 2025-02-25 17:21:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Mechanistic PDE Networks for Discovery of Governing Equations はコメントを受け付けていません

Learning sparse generalized linear models with binary outcomes via iterative hard thresholding

要約

統計では、一般化された線形モデル(GLM)がデータのモデリングに広く使用されており、モデルの共変量に対するモデルの結果の潜在的な非線形依存性を表現的にキャプチャできます。
GLMSの広範なファミリー内では、ロジスティックおよびプロビットの回帰を含むバイナリ結果を持つ人々は、(おそらく)分離不可能なデータを使用したバイナリ分類などの一般的なタスクによって動機付けられています。
さらに、現代の機械学習と統計では、データはしばしば高次元的であるが、本質的な次元が低いため、モデルのスパース性の制約は別の合理的な考慮事項をもたらします。
この作業では、バイナリGLMのパラメーター推定のために、バイナリイテラティブハードしきい値(BIHT)と呼ばれる、反復的なハードしきい値(Relu損失の投影勾配降下)アルゴリズムを使用および分析することを提案します。
BIHTは統計的に効率的であり、スパースバイナリGLMの一般的なクラスでパラメーター推定のために正しいソリューションに収束することを確立します。
GLMを学習する他の多くの方法とは異なり、最尤推定、一般化の近似メッセージパス、およびGLM-Tron(Kakade etal。2011; Bahmani etal。2016)を含む、BIHTはGLMのリンク関数の知識を必要としません。
アルゴリズムが任意のバイナリGLMを学習できるようにする一般性。
2つのアプリケーションとして、ロジスティックとプロビットの回帰がさらに研究されています。
この点で、ロジスティック回帰では、アルゴリズムは実際には、順序ごとのサンプルの複雑さが(対数因子まで)以前に得られた下限が一致するという意味で統計的に最適であることが示されています。
私たちの知る限り、これは、計算効率の高いアルゴリズムを備えたすべてのノイズレジームでロジスティック回帰の統計的最適性を達成する最初の作業です。
さらに、プロビット回帰の場合、サンプルの複雑さは、ロジスティック回帰のために得られたものと同じ順序にあります。

要約(オリジナル)

In statistics, generalized linear models (GLMs) are widely used for modeling data and can expressively capture potential nonlinear dependence of the model’s outcomes on its covariates. Within the broad family of GLMs, those with binary outcomes, which include logistic and probit regressions, are motivated by common tasks such as binary classification with (possibly) non-separable data. In addition, in modern machine learning and statistics, data is often high-dimensional yet has a low intrinsic dimension, making sparsity constraints in models another reasonable consideration. In this work, we propose to use and analyze an iterative hard thresholding (projected gradient descent on the ReLU loss) algorithm, called binary iterative hard thresholding (BIHT), for parameter estimation in sparse GLMs with binary outcomes. We establish that BIHT is statistically efficient and converges to the correct solution for parameter estimation in a general class of sparse binary GLMs. Unlike many other methods for learning GLMs, including maximum likelihood estimation, generalized approximate message passing, and GLM-tron (Kakade et al. 2011; Bahmani et al. 2016), BIHT does not require knowledge of the GLM’s link function, offering flexibility and generality in allowing the algorithm to learn arbitrary binary GLMs. As two applications, logistic and probit regression are additionally studied. In this regard, it is shown that in logistic regression, the algorithm is in fact statistically optimal in the sense that the order-wise sample complexity matches (up to logarithmic factors) the lower bound obtained previously. To the best of our knowledge, this is the first work achieving statistical optimality for logistic regression in all noise regimes with a computationally efficient algorithm. Moreover, for probit regression, our sample complexity is on the same order as that obtained for logistic regression.

arxiv情報

著者 Namiko Matsumoto,Arya Mazumdar
発行日 2025-02-25 17:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH | Learning sparse generalized linear models with binary outcomes via iterative hard thresholding はコメントを受け付けていません

The FFT Strikes Back: An Efficient Alternative to Self-Attention

要約

従来の自己関節メカニズムには二次の複雑さが発生し、長いシーケンスでのスケーラビリティが制限されます。
高速フーリエ変換(FFT)を活用して$ \ mathcal {o}(n \ log n)$時間でグローバルなトークンミキシングを実現する適応スペクトルフィルタリングフレームワークであるFFTNETを紹介します。
入力を周波数ドメインに変換することにより、FFTNETは、長距離依存関係を効率的にキャプチャするために、Parsevalの定理によって保証された直交性とエネルギー保存を活用します。
学習可能なスペクトルフィルターとModreluの活性化は、顕著な周波数コンポーネントを動的に強調し、従来の自己関節に代わる厳密で適応的な代替品を提供します。
長距離アリーナとイメージネットのベンチマークでの実験は、当社の理論的洞察を検証し、固定フーリエおよび標準の注意モデルよりも優れた性能を示します。

要約(オリジナル)

Conventional self-attention mechanisms incur quadratic complexity, limiting their scalability on long sequences. We introduce FFTNet, an adaptive spectral filtering framework that leverages the Fast Fourier Transform (FFT) to achieve global token mixing in $\mathcal{O}(n\log n)$ time. By transforming inputs into the frequency domain, FFTNet exploits the orthogonality and energy preservation guaranteed by Parseval’s theorem to capture long-range dependencies efficiently. A learnable spectral filter and modReLU activation dynamically emphasize salient frequency components, providing a rigorous and adaptive alternative to traditional self-attention. Experiments on the Long Range Arena and ImageNet benchmarks validate our theoretical insights and demonstrate superior performance over fixed Fourier and standard attention models.

arxiv情報

著者 Jacob Fein-Ashley
発行日 2025-02-25 17:43:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | The FFT Strikes Back: An Efficient Alternative to Self-Attention はコメントを受け付けていません

Enhancing DNA Foundation Models to Address Masking Inefficiencies

要約

事前トレーニング目標としてのマスク言語モデリング(MLM)は、ゲノムシーケンスモデリングで広く採用されています。
事前に保護されたモデルは、さまざまなダウンストリームタスクのエンコーダーとして正常に機能する可能性がありますが、事前削除と推論の間の分布シフトは、[マスク]トークンを予測にマッピングすることですが、[マスク]はダウンストリームアプリケーション中には存在しないため、パフォーマンスに影響を与えます。
これは、エンコーダーが非[マスク]トークンのエンコーディングを優先せず、パラメーターを消費し、展開時間が無関係であるにもかかわらず、MLMタスクに関連する作業のみを計算します。
この作業では、BERTベースのトランス内でのこの非効率性に対処するように設計されたマスクされた自動エンコーダーフレームワークに基づいた修正されたエンコーダーデコダーアーキテクチャを提案します。
結果として生じるミスマッチは、モデルが微調整せずに特徴抽出によく使用されることが多いゲノムパイプラインで特に有害であることを経験的に示します。
200万人以上のユニークなDNAバーコードを含むBioscan-5Mデータセットでのアプローチを評価します。
MLMタスクで前提とした因果モデルと双方向アーキテクチャと比較した場合、閉じた世界とオープンワールドの両方の分類タスクでかなりのパフォーマンスの向上を達成します。

要約(オリジナル)

Masked language modelling (MLM) as a pretraining objective has been widely adopted in genomic sequence modelling. While pretrained models can successfully serve as encoders for various downstream tasks, the distribution shift between pretraining and inference detrimentally impacts performance, as the pretraining task is to map [MASK] tokens to predictions, yet the [MASK] is absent during downstream applications. This means the encoder does not prioritize its encodings of non-[MASK] tokens, and expends parameters and compute on work only relevant to the MLM task, despite this being irrelevant at deployment time. In this work, we propose a modified encoder-decoder architecture based on the masked autoencoder framework, designed to address this inefficiency within a BERT-based transformer. We empirically show that the resulting mismatch is particularly detrimental in genomic pipelines where models are often used for feature extraction without fine-tuning. We evaluate our approach on the BIOSCAN-5M dataset, comprising over 2 million unique DNA barcodes. We achieve substantial performance gains in both closed-world and open-world classification tasks when compared against causal models and bidirectional architectures pretrained with MLM tasks.

arxiv情報

著者 Monireh Safari,Pablo Millan Arias,Scott C. Lowe,Lila Kari,Angel X. Chang,Graham W. Taylor
発行日 2025-02-25 17:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhancing DNA Foundation Models to Address Masking Inefficiencies はコメントを受け付けていません