Identifying Key Challenges of Hardness-Based Resampling

要約

クラス間のパフォーマンスのギャップは、機械学習における永続的な課題のままであり、多くの場合、クラスの硬度の変動に起因します。
クラスの硬度を定量化する1つの方法は、サンプルの複雑さ、つまり特定のクラスを効果的に学習するために必要なサンプルの最小数です。
サンプルの複雑さ理論は、クラスの硬度は一般化に必要なデータの量の違いによって駆動されることを示唆しています。
つまり、より難しいクラスは、一般化を実現するために大幅に多くのサンプルを必要とします。
したがって、硬度ベースの再サンプリングは、これらのパフォーマンスの格差を軽減するための有望なアプローチです。
データ緩和設定では、再サンプリングが広範囲に研究されていますが、バランスの取れたデータセットへの影響は未調査のままです。
これは、データの不均衡または硬度の不均衡に対処するため、再サンプリングが効果的であるかどうかの基本的な疑問を提起します。
クラスの不均衡をバランスの取れたデータセットに導入し、パフォーマンスの格差への影響を評価することにより、この質問に対処し始めます。
ハードクラスをオーバーサンプリングし、簡単なクラスをサンプリングして、ハードクラスをサンプルの複雑さの要件に近づけ、公平のために一定のデータセットサイズを維持します。
マージン(AUM)硬度推定器の下の領域を使用してクラスレベルの硬度を推定し、それを活用して再サンプリング比を計算します。
これらの比率を使用して、よく知られているCIFAR-10およびCIFAR-100データセットで硬度ベースの再サンプリングを実行します。
理論的な期待に反して、我々の結果は、硬度ベースの再サンプリングがクラスごとのパフォーマンスの格差に有意に影響しないことを示しています。
この矛盾を説明するために、硬度ベースの不均衡に固有の重要な課題を特定するために詳細な分析を実施し、従来のデータベースの不均衡と区別します。
私たちの洞察は、理論的なサンプルの複雑さの期待が実際のパフォーマンスの向上に変換できない理由を説明するのに役立ち、将来の研究のためのガイドラインを提供します。

要約(オリジナル)

Performance gap across classes remains a persistent challenge in machine learning, often attributed to variations in class hardness. One way to quantify class hardness is through sample complexity – the minimum number of samples required to effectively learn a given class. Sample complexity theory suggests that class hardness is driven by differences in the amount of data required for generalization. That is, harder classes need substantially more samples to achieve generalization. Therefore, hardness-based resampling is a promising approach to mitigate these performance disparities. While resampling has been studied extensively in data-imbalanced settings, its impact on balanced datasets remains unexplored. This raises the fundamental question whether resampling is effective because it addresses data imbalance or hardness imbalance. We begin addressing this question by introducing class imbalance into balanced datasets and evaluate its effect on performance disparities. We oversample hard classes and undersample easy classes to bring hard classes closer to their sample complexity requirements while maintaining a constant dataset size for fairness. We estimate class-level hardness using the Area Under the Margin (AUM) hardness estimator and leverage it to compute resampling ratios. Using these ratios, we perform hardness-based resampling on the well-known CIFAR-10 and CIFAR-100 datasets. Contrary to theoretical expectations, our results show that hardness-based resampling does not meaningfully affect class-wise performance disparities. To explain this discrepancy, we conduct detailed analyses to identify key challenges unique to hardness-based imbalance, distinguishing it from traditional data-based imbalance. Our insights help explain why theoretical sample complexity expectations fail to translate into practical performance gains and we provide guidelines for future research.

arxiv情報

著者 Pawel Pukowski,Venet Osmani
発行日 2025-04-09 16:45:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Identifying Key Challenges of Hardness-Based Resampling はコメントを受け付けていません

To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning

要約

大規模な言語モデルの最近の進歩により、特に検索とバックトラッキングを含む技術を通じて、推論能力が大幅に改善されました。
バックトラッキングは、長い考え方(COT)生成を介して連続した線形化された探索を有効にすることにより、テスト時間計算を自然にスケールします。
ただし、これはテスト時間計算をスケーリングするための唯一の戦略ではありません。Best-n-n Selectionとの並列サンプリングは、多様なソリューションを同時に生成する代替手段を提供します。
順次検索の採用が増えているにもかかわらず、特に固定された計算予算の下での並列サンプリングに対するその利点は、あまり理解されていません。
この論文では、これら2つのアプローチを、CountdownとSudokuという2つの挑戦的な推論タスクで体系的に比較します。
驚くべきことに、シーケンシャル検索はカウントダウンでの並行サンプリングを下回っているが、スノクでそれを上回ることができることがわかり、バックトラッキングは普遍的に有益ではないことを示唆しています。
バックトラッキングを引き起こす可能性のある2つの要因を特定します。(1)固定検索トレースのトレーニングは、モデルを最適ではない戦略にロックでき、(2)明示的なCOT監督は「暗黙的」(非言語化)推論を阻止できます。
分析を補強学習(RL)に拡張すると、バックトラッキング機能を備えたモデルがRL微調整から大幅に利益をもたらし、バックトラッキングのないモデルが限られた混合ゲインを参照していることを示しています。
一緒に、これらの調査結果は、バックトラックが普遍的にLLMの推論を強化し、代わりにタスク構造、トレーニングデータ、モデルスケール、学習パラダイムの間の複雑な相互作用を明らかにするという仮定に挑戦します。

要約(オリジナル)

Recent advancements in large language models have significantly improved their reasoning abilities, particularly through techniques involving search and backtracking. Backtracking naturally scales test-time compute by enabling sequential, linearized exploration via long chain-of-thought (CoT) generation. However, this is not the only strategy for scaling test-time compute: parallel sampling with best-of-n selection provides an alternative that generates diverse solutions simultaneously. Despite the growing adoption of sequential search, its advantages over parallel sampling–especially under a fixed compute budget remain poorly understood. In this paper, we systematically compare these two approaches on two challenging reasoning tasks: CountDown and Sudoku. Surprisingly, we find that sequential search underperforms parallel sampling on CountDown but outperforms it on Sudoku, suggesting that backtracking is not universally beneficial. We identify two factors that can cause backtracking to degrade performance: (1) training on fixed search traces can lock models into suboptimal strategies, and (2) explicit CoT supervision can discourage ‘implicit’ (non-verbalized) reasoning. Extending our analysis to reinforcement learning (RL), we show that models with backtracking capabilities benefit significantly from RL fine-tuning, while models without backtracking see limited, mixed gains. Together, these findings challenge the assumption that backtracking universally enhances LLM reasoning, instead revealing a complex interaction between task structure, training data, model scale, and learning paradigm.

arxiv情報

著者 Tian Qin,David Alvarez-Melis,Samy Jelassi,Eran Malach
発行日 2025-04-09 17:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | To Backtrack or Not to Backtrack: When Sequential Search Limits Model Reasoning はコメントを受け付けていません

Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning

要約

テンソルプログラムのチューニングは、深いニューラルネットワークの効率的な展開に不可欠です。
検索ベースのアプローチは、特定のハードウェアの高性能プログラムを自動的に見つける際にスケーラビリティと有効性を実証しました。
ただし、多くの場合、検索プロセスは非効率的であり、正確ではあるが遅いコストモデルによって導かれる探索メカニズムのために、最適なプログラムを発見するために数時間または数日かかります。
一方、あるプラットフォームで訓練された学習コストモデルは、オンラインでシームレスにオンラインで適応することはできません。
この作業では、PrunerとMoa-Prunerを提案します。
Prunerは、スケジュールの検索プロセスを加速する「ドラフト – ヴェリフィー」探索メカニズムです。
複雑な学習コストモデルをすべての探索した候補者に適用する代わりに、Prunerは、ナイーブシンボルベースのアナライザー(ドラフトモデル)を導入することにより、小規模な潜在的な候補者をドラフトし、学習コストモデルで最高の候補者を特定します。
MOA-Prunerは、クロスプラットフォームのオンラインの不明確さに対処するための勢いのオンライン適応戦略を導入します。
PrunerをTVMに組み込み、3つのGPUベースのプラットフォームで広範な実験を実施します。
結果は、スケジュール検索時間のかなりの速度を示しています。
オンラインチューニングシナリオでは、PrunerとMOA-PrunerがANSORと比較して平均$ 2.6 \ Times $と4.82 \ Times $の平均スピードアップを達成します。
オフラインチューニングシナリオでは、Prunerは、それぞれTensetとTLPと比較して、それぞれ4.75 \ Times $ $ 4.05 \ Times $の平均スピードアップを達成します。
さらに、Prunerは、TensorcoreのMetascheduleと比較して、平均$ 4.08 \ Times $のスピードアップを達成します。

要約(オリジナル)

Tensor program tuning is essential for the efficient deployment of deep neural networks. Search-based approaches have demonstrated scalability and effectiveness in automatically finding high-performance programs for specific hardware. However, the search process is often inefficient, taking hours or even days to discover optimal programs due to the exploration mechanisms guided by an accurate but slow-learned cost model. Meanwhile, the learned cost model trained on one platform cannot seamlessly adapt online to another, which we call cross-platform online unawareness. In this work, we propose Pruner and MoA-Pruner. Pruner is a ‘Draft-then-Verify’ exploration mechanism that accelerates the schedule search process. Instead of applying the complex learned cost model to all explored candidates, Pruner drafts small-scale potential candidates by introducing a naive Symbol-based Analyzer (draft model), then identifies the best candidates by the learned cost model. MoA-Pruner introduces a Momentum online Adaptation strategy to address the cross-platform online unawareness. We incorporate Pruner into the TVM and conduct extensive experiments on three GPU-based platforms. Results show considerable speedup in schedule search time. In online tuning scenarios, Pruner and MoA-Pruner achieve an average speedup of $2.6 \times$ and $4.82 \times$ compared to Ansor. In offline tuning scenarios, Pruner achieves an average speedup of $4.75 \times$ and $4.05\times$ compared to TenSet and TLP, respectively. Furthermore, Pruner achieves an average speedup of $4.08 \times$ compared to MetaSchedule on TensorCore.

arxiv情報

著者 Liang Qiao,Jun Shi,Xiaoyu Hao,Xi Fang,Sen Zhang,Minfan Zhao,Ziqi Zhu,Junshi Chen,Hong An,Xulong Tang,Bing Li,Honghui Yuan,Xinyang Wang
発行日 2025-04-09 17:26:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Pruner: A Draft-then-Verify Exploration Mechanism to Accelerate Tensor Program Tuning はコメントを受け付けていません

Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling

要約

メタゲノムプロファイリングとして知られるサンプル内の微生物種を迅速かつ正確に識別する能力は、ヘルスケアから環境科学まで、さまざまな分野で重要です。
このホワイトペーパーでは、ベースコールと呼ばれるプロセスを決定することと、ヌクレオチド配列を決定することと並行して並行してシーケンスデバイスから来るプロファイルのプロファイルを紹介します。
ベースコールと分類の損失が個別に戻ってきて、共有レイヤーにモデルの重みが組み合わされ、事前に構成されたランキング戦略がトップK種の精度を可能にし、ユーザーが種を識別する際のより高い精度または高速を選択できるようにする新しい損失戦略を導入します。
分類精度は最先端の精度を達成し、最先端のバイナリ分類子の結果を満たし、それを超えており、ick細菌データセットの合計17のゲノムの中でトップ1/3種を特定する際に平均92.5%/98.9%の精度を達成しました。
ここで紹介する研究は、DNA配列を正しいゲノムに一致させるボトルネックステップを加速することにより、メタゲノムプロファイリングの将来の研究に影響を与えます。

要約(オリジナル)

The ability to quickly and accurately identify microbial species in a sample, known as metagenomic profiling, is critical across various fields, from healthcare to environmental science. This paper introduces a novel method to profile signals coming from sequencing devices in parallel with determining their nucleotide sequences, a process known as basecalling, via a multi-objective deep neural network for simultaneous basecalling and multi-class genome classification. We introduce a new loss strategy where losses for basecalling and classification are back-propagated separately, with model weights combined for the shared layers, and a pre-configured ranking strategy allowing top-K species accuracy, giving users flexibility to choose between higher accuracy or higher speed at identifying the species. We achieve state-of-the-art basecalling accuracies, while classification accuracies meet and exceed the results of state-of-the-art binary classifiers, attaining an average of 92.5%/98.9% accuracy at identifying the top-1/3 species among a total of 17 genomes in the Wick bacterial dataset. The work presented here has implications for future studies in metagenomic profiling by accelerating the bottleneck step of matching the DNA sequence to the correct genome.

arxiv情報

著者 Riselda Kodra,Hadjer Benmeziane,Irem Boybat,William Andrew Simon
発行日 2025-04-09 17:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.GN | Enhancing Downstream Analysis in Genome Sequencing: Species Classification While Basecalling はコメントを受け付けていません

Estimation of embedding vectors in high dimensions

要約

埋め込みは、多くの機械学習モデル、特に自然言語処理における基本的な初期機能抽出ステップです。
埋め込みは、埋め込み空間のある程度のメトリックによって互いに近いベクトルに類似したトークンがマッピングされる低次元空間にデータトークンをマッピングしようとします。
基本的な質問は、そのような埋め込みをどの程度十分に学ぶことができるかということです。
この問題を研究するために、ランダム変数の相関が埋め込みの類似性に関連する「真の」が不明な埋め込みがある離散データの単純な確率モデルを検討します。
このモデルでは、埋め込みは、低ランクの近似メッセージパッシング(AMP)メソッドのバリアントによって学習できることが示されています。
AMPアプローチにより、特定の高次元制限における推定の精度を正確に予測できます。
特に、方法論は、値ごとのサンプル数、用語の頻度、および確率分布の埋め込み相関の強度などの重要なパラメーターの関係に関する洞察を提供します。
理論的な調査結果は、合成データと実際のテキストデータの両方のシミュレーションによって検証されています。

要約(オリジナル)

Embeddings are a basic initial feature extraction step in many machine learning models, particularly in natural language processing. An embedding attempts to map data tokens to a low-dimensional space where similar tokens are mapped to vectors that are close to one another by some metric in the embedding space. A basic question is how well can such embedding be learned? To study this problem, we consider a simple probability model for discrete data where there is some ‘true’ but unknown embedding where the correlation of random variables is related to the similarity of the embeddings. Under this model, it is shown that the embeddings can be learned by a variant of low-rank approximate message passing (AMP) method. The AMP approach enables precise predictions of the accuracy of the estimation in certain high-dimensional limits. In particular, the methodology provides insight on the relations of key parameters such as the number of samples per value, the frequency of the terms, and the strength of the embedding correlation on the probability distribution. Our theoretical findings are validated by simulations on both synthetic data and real text data.

arxiv情報

著者 Golara Ahmadi Azar,Melika Emami,Alyson Fletcher,Sundeep Rangan
発行日 2025-04-09 17:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML | Estimation of embedding vectors in high dimensions はコメントを受け付けていません

A Concise Mathematical Description of Active Inference in Discrete Time

要約

この論文では、離散時間におけるアクティブ推論の簡潔な数学的説明を示します。
論文の主要部分は、アクション選択メカニズムの詳細な例を含む、トピックの基本的な紹介として機能します。
付録では、より微妙な数学の詳細について説明し、すでに積極的な推論文献を研究しているが、数学的な詳細と派生を理解するのに苦労している読者をターゲットにしています。
全体を通して、正確で標準的な数学表記を強調し、既存のテキストとの一貫性を確保し、すべての方程式をアクティブな推論で広く使用されている参照にリンクします。
さらに、このペーパーで説明されているアクション選択および学習メカニズムを実装し、Pymdp環境と互換性のあるPythonコードを提供します。

要約(オリジナル)

In this paper we present a concise mathematical description of active inference in discrete time. The main part of the paper serves as a basic introduction to the topic, including a detailed example of the action selection mechanism. The appendix discusses the more subtle mathematical details, targeting readers who have already studied the active inference literature but struggle to make sense of the mathematical details and derivations. Throughout, we emphasize precise and standard mathematical notation, ensuring consistency with existing texts and linking all equations to widely used references on active inference. Additionally, we provide Python code that implements the action selection and learning mechanisms described in this paper and is compatible with pymdp environments.

arxiv情報

著者 Jesse van Oostrum,Carlotta Langer,Nihat Ay
発行日 2025-04-09 17:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | A Concise Mathematical Description of Active Inference in Discrete Time はコメントを受け付けていません

Distributional Autoencoders Know the Score

要約

この作業は、最近導入されたクラスの自動エンコーダー – 分布プリンシパルオートエンコーダー(DPA)の新規で望ましい特性を提示します。これは、分布的に正しい再構築とエンコーディングの主成分のような解釈可能性を組み合わせています。
まず、エンコーダーのレベルセットがデータ分布のスコアに関して正確に向いていることを正式に示します。
これは、データの変動の要因を解き放つ際の方法の顕著なパフォーマンスを説明し、サンプルのみにアクセスしながら分布を回復する可能性を開きます。
スコア自体が物理的な意味を持つ設定では、データがボルツマン分布に従うときなど、この方法が最小自由エネルギー経路などの科学的に重要な量を回復できることを実証します。
第二に、データがエンコーダーによって近似できるマニホールドにある場合、マニホールドの次元を超えた最適なエンコーダのコンポーネントは、データ分布に関する追加情報をまったく運ばないことを証明します。
これは、データの関連する寸法の数を決定する潜在的に新しい方法を約束します。
したがって、結果は、DPAが、監視されていない学習の2つの異なる目標、つまりデータ分布の学習と本質的なデータの次元の学習をエレガントに組み合わせていることを示しています。

要約(オリジナル)

This work presents novel and desirable properties of a recently introduced class of autoencoders – the Distributional Principal Autoencoder (DPA) – which combines distributionally correct reconstruction with principal components-like interpretability of the encodings. First, we show formally that the level sets of the encoder orient themselves exactly with regard to the score of the data distribution. This both explains the method’s often remarkable performance in disentangling the factors of variation of the data, as well as opens up possibilities of recovering its distribution while having access to samples only. In settings where the score itself has physical meaning – such as when the data obeys the Boltzmann distribution – we demonstrate that the method can recover scientifically important quantities such as the minimum free energy path. Second, we prove that if the data lies on a manifold that can be approximated by the encoder, the optimal encoder’s components beyond the dimension of the manifold will carry absolutely no additional information about the data distribution. This promises potentially new ways of determining the number of relevant dimensions of the data. The results thus demonstrate that the DPA elegantly combines two often disparate goals of unsupervised learning: the learning of the data distribution and the learning of the intrinsic data dimensionality.

arxiv情報

著者 Andrej Leban
発行日 2025-04-09 17:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Distributional Autoencoders Know the Score はコメントを受け付けていません

Identifying Unknown Stochastic Dynamics via Finite expression methods

要約

確率微分方程式(SDE)のモデリングは、さまざまな科学分野で複雑な動的システムを理解するために重要です。
最近の方法では、通常、決定論的な用語と確率的用語の組み合わせを介してSDEを表すニューラルネットワークベースのモデルを使用しています。
ただし、これらのモデルは通常、解釈可能性がなく、トレーニングドメインを超えて一般化するのが困難です。
このペーパーでは、SDEの決定論的成分の解釈可能な数学的表現を導き出すために設計された象徴的な学習アプローチである有限発現法(FEX)を紹介します。
確率的成分については、FEXを高度な生成モデリング技術と統合して、SDEの包括的な表現を提供します。
線形、非線形、多次元のSDEに関する数値実験は、Fexがトレーニングドメインをはるかに超えて一般化し、ニューラルネットワークベースの方法と比較してより正確な長期予測を提供することを示しています。
FEXによって特定された象徴的な表現は、予測の精度を改善するだけでなく、システムの基礎となるダイナミクスに関する貴重な科学的洞察を提供し、新しい科学的発見への道を開いています。

要約(オリジナル)

Modeling stochastic differential equations (SDEs) is crucial for understanding complex dynamical systems in various scientific fields. Recent methods often employ neural network-based models, which typically represent SDEs through a combination of deterministic and stochastic terms. However, these models usually lack interpretability and have difficulty generalizing beyond their training domain. This paper introduces the Finite Expression Method (FEX), a symbolic learning approach designed to derive interpretable mathematical representations of the deterministic component of SDEs. For the stochastic component, we integrate FEX with advanced generative modeling techniques to provide a comprehensive representation of SDEs. The numerical experiments on linear, nonlinear, and multidimensional SDEs demonstrate that FEX generalizes well beyond the training domain and delivers more accurate long-term predictions compared to neural network-based methods. The symbolic expressions identified by FEX not only improve prediction accuracy but also offer valuable scientific insights into the underlying dynamics of the systems, paving the way for new scientific discoveries.

arxiv情報

著者 Senwei Liang,Chunmei Wang,Xingjian Xu
発行日 2025-04-09 17:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Identifying Unknown Stochastic Dynamics via Finite expression methods はコメントを受け付けていません

Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning

要約

具体化されたシステムは、外界のパターンをモデル化するだけでなく、独自の動きのダイナミクスを理解する必要があります。
効率的なスキル獲得と効果的な計画には、モーション動的モデルが不可欠です。
この作業では、現在の観測とアクションに基づいて具体化されたシステムの将来の物理的状態を予測する世界モデルであるニューラルモーションシミュレーター(MOSIM)を紹介します。
MOSIMは、物理的な状態予測で最先端のパフォーマンスを達成し、さまざまなダウンストリームタスクで競争力のあるパフォーマンスを提供します。
これは、世界モデルが十分に正確であり、正確な長期予測を実行すると、想像上の世界での効率的なスキル獲得を促進し、ゼロショットの強化学習を可能にすることさえできることを示しています。
さらに、MOSIMは、モデルフリーの強化学習(RL)アルゴリズムをモデルベースのアプローチに変換し、RLアルゴリズム開発からの物理環境モデリングを効果的に分離することができます。
この分離により、RLアルゴリズムと世界モデリングの独立した進歩が可能になり、サンプルの効率が大幅に改善され、一般化能力が向上します。
私たちの調査結果は、モーションダイナミクスの世界モデルが、より多用途で有能な具体化されたシステムを開発するための有望な方向であることを強調しています。

要約(オリジナル)

An embodied system must not only model the patterns of the external world but also understand its own motion dynamics. A motion dynamic model is essential for efficient skill acquisition and effective planning. In this work, we introduce the neural motion simulator (MoSim), a world model that predicts the future physical state of an embodied system based on current observations and actions. MoSim achieves state-of-the-art performance in physical state prediction and provides competitive performance across a range of downstream tasks. This works shows that when a world model is accurate enough and performs precise long-horizon predictions, it can facilitate efficient skill acquisition in imagined worlds and even enable zero-shot reinforcement learning. Furthermore, MoSim can transform any model-free reinforcement learning (RL) algorithm into a model-based approach, effectively decoupling physical environment modeling from RL algorithm development. This separation allows for independent advancements in RL algorithms and world modeling, significantly improving sample efficiency and enhancing generalization capabilities. Our findings highlight that world models for motion dynamics is a promising direction for developing more versatile and capable embodied systems.

arxiv情報

著者 Chenjie Hao,Weyl Lu,Yifan Xu,Yubei Chen
発行日 2025-04-09 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning はコメントを受け付けていません

CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers

要約

変圧器は、自然言語処理とコンピュータービジョンの顕著なブレークスルーを駆動していますが、標準的な注意メカニズムは依然としてO(n^2)の複雑さを課し、より長いシーケンスにスケーラビリティを妨げます。
表現力を犠牲にすることなく複雑さを減らすために循環畳み込みを効率的に適用するフーリエベースのアプローチである円形の巻き込みの注意(CAT)を紹介します。
CATはO(nlogn)計算を達成し、完全に接続されたレイヤーを合理化することにより学習可能なパラメーターが少なくなり、より重い操作が導入されないため、Imagenet-1KやWikitext-103などの大規模なベンチマークでのナイーブなPytorchの実装での一貫した精度の改善と約10%のスピードアップが得られます。
Engineering-somorphism Frameworkに基づいて、CATのデザインは、実用的な効率と実装の容易さを提供するだけでなく、次世代の高性能変圧器アーキテクチャの開発を導く洞察も提供します。
最後に、私たちのアブレーション研究は、猫の成功の根底にある重要な条件を強調し、スケーラブルな注意メカニズムのためのより広い原則に光を当てています。

要約(オリジナル)

Transformers have driven remarkable breakthroughs in natural language processing and computer vision, yet their standard attention mechanism still imposes O(N^2) complexity, hindering scalability to longer sequences. We introduce Circular-convolutional ATtention (CAT), a Fourier-based approach that efficiently applies circular convolutions to reduce complexity without sacrificing representational power. CAT achieves O(NlogN) computations, requires fewer learnable parameters by streamlining fully-connected layers, and introduces no heavier operations, resulting in consistent accuracy improvements and about a 10% speedup in naive PyTorch implementations on large-scale benchmarks such as ImageNet-1k and WikiText-103. Grounded in an engineering-isomorphism framework, CAT’s design not only offers practical efficiency and ease of implementation but also provides insights to guide the development of next-generation, high-performance Transformer architectures. Finally, our ablation studies highlight the key conditions underlying CAT’s success, shedding light on broader principles for scalable attention mechanisms.

arxiv情報

著者 Yoshihiro Yamada
発行日 2025-04-09 09:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers はコメントを受け付けていません