Supporting the development of Machine Learning for fundamental science in a federated Cloud with the AI_INFN platform

要約

Machine Learning(ML)は、科学者がデータ集約型ソフトウェアを設計、開発、展開する方法に革命を促進しています。
ただし、MLの採用は、特に開発、テスト、および生産のためのハードウェアアクセラレータへのアクセスのプロビジョニングと調整の観点から、コンピューティングインフラストラクチャの新しい課題を提示します。
INFN資金によるプロジェクトAI_INFN( ‘INFNの人工知能’)は、AIに誘導されたコンピューティングリソースの提供を含む複数の側面に関するサポートを提供することにより、INFNユースケース内でML技術の採用を促進することを目指しています。
INFNクラウドのコンテキストでクラウドネイティブソリューションを活用して、ハードウェアアクセラレータを可能な限り効果的に共有し、研究所の研究活動の多様性が損なわれないようにします。
この貢献では、GPUを搭載したデータ分析ワークフローの開発を容易にするために設計されたKubernetesプラットフォームの試運転と、おそらくインターリンクプロバイダーとの仮想kubeletとしてフェデレーションされている不均一な分散コンピューティングリソースでのスケーラビリティに関する最新情報を提供します。

要約(オリジナル)

Machine Learning (ML) is driving a revolution in the way scientists design, develop, and deploy data-intensive software. However, the adoption of ML presents new challenges for the computing infrastructure, particularly in terms of provisioning and orchestrating access to hardware accelerators for development, testing, and production. The INFN-funded project AI_INFN (‘Artificial Intelligence at INFN’) aims at fostering the adoption of ML techniques within INFN use cases by providing support on multiple aspects, including the provision of AI-tailored computing resources. It leverages cloud-native solutions in the context of INFN Cloud, to share hardware accelerators as effectively as possible, ensuring the diversity of the Institute’s research activities is not compromised. In this contribution, we provide an update on the commissioning of a Kubernetes platform designed to ease the development of GPU-powered data analysis workflows and their scalability on heterogeneous, distributed computing resources, possibly federated as Virtual Kubelets with the interLink provider.

arxiv情報

著者 Lucio Anderlini,Matteo Barbetti,Giulio Bianchini,Diego Ciangottini,Stefano Dal Pra,Diego Michelotto,Carmelo Pellegrino,Rosa Petrini,Alessandro Pascolini,Daniele Spiga
発行日 2025-02-28 17:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, physics.data-an | Supporting the development of Machine Learning for fundamental science in a federated Cloud with the AI_INFN platform はコメントを受け付けていません

BAnG: Bidirectional Anchored Generation for Conditional RNA Design

要約

特定のタンパク質と相互作用するRNA分子の設計は、実験的および計算生物学において重要な課題です。
既存の計算アプローチには、特定のタンパク質ごとに実験的に決定されたRNA配列またはRNA構造の詳細な知識が必要であり、実際に有用性を制限します。
この制限に対処するために、これらの要件なしにタンパク質相互作用のRNA配列を生成するように設計された深い学習ベースのモデルであるRNA-Bangを開発します。
私たちのアプローチの中心は、タンパク質結合RNA配列がより広い配列コンテキストに埋め込まれた機能的結合モチーフをしばしば含むという観察を活用する、双方向の生成(BANG)の新しい生成方法(BANG)です。
まず、RNASに登場する人と同様の局所的なモチーフを含む一般的な合成タスクに関する方法を検証し、既存の生成アプローチに対する利点を示します。
次に、生物学的配列でモデルを評価し、結合タンパク質を考慮して条件付きRNA配列設計に対するその有効性を示します。

要約(オリジナル)

Designing RNA molecules that interact with specific proteins is a critical challenge in experimental and computational biology. Existing computational approaches require a substantial amount of experimentally determined RNA sequences for each specific protein or a detailed knowledge of RNA structure, restricting their utility in practice. To address this limitation, we develop RNA-BAnG, a deep learning-based model designed to generate RNA sequences for protein interactions without these requirements. Central to our approach is a novel generative method, Bidirectional Anchored Generation (BAnG), which leverages the observation that protein-binding RNA sequences often contain functional binding motifs embedded within broader sequence contexts. We first validate our method on generic synthetic tasks involving similar localized motifs to those appearing in RNAs, demonstrating its benefits over existing generative approaches. We then evaluate our model on biological sequences, showing its effectiveness for conditional RNA sequence design given a binding protein.

arxiv情報

著者 Roman Klypa,Alberto Bietti,Sergei Grudinin
発行日 2025-02-28 17:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.BM | BAnG: Bidirectional Anchored Generation for Conditional RNA Design はコメントを受け付けていません

Explaining Humour Style Classifications: An XAI Approach to Understanding Computational Humour Analysis

要約

ユーモアスタイルは、幸福にマイナスまたはプラスの影響を与えることができます。
メンタルヘルスに対するこれらのスタイルの重要性を考えると、自動識別に関して重要な研究が行われています。
ただし、この目的に使用される自動化された機械学習モデルはブラックボックスであり、予測の決定が不透明になります。
メンタルヘルスの分野では、明快さと透明性が不可欠です。
このペーパーでは、ユーモアスタイルの分類を理解するための説明可能なAI(XAI)フレームワークを紹介します。
以前の研究から最高のパフォーマンスのシングルモデル(Ali+Xgboost)を使用して、包括的なXaiテクニックを適用して、言語的、感情的、意味的な機能がユーモアスタイルの分類の決定にどのように貢献するかを分析します。
私たちの分析は、異なるユーモアスタイルがどのように特徴付けられ、誤分類されているかについての明確なパターンを明らかにし、特に他のスタイルと提携ユーモアを区別する際の課題に重点を置いています。
機能の重要性、エラーパターン、および誤分類のケースを詳細に調べることにより、感情的な曖昧さ、コンテキストの誤解、ターゲットの識別など、モデルの決定に影響を与える重要な要因を特定します。
このフレームワークは、モデルの行動を理解する上で重要な有用性を示し、異なるユーモアスタイルを定義する機能の複雑な相互作用に対する解釈可能な洞察を達成します。
私たちの調査結果は、計算ユーモア分析の理論的理解と、メンタルヘルス、コンテンツの節度、デジタル人文科学の研究における実用的なアプリケーションの両方に貢献しています。

要約(オリジナル)

Humour styles can have either a negative or a positive impact on well-being. Given the importance of these styles to mental health, significant research has been conducted on their automatic identification. However, the automated machine learning models used for this purpose are black boxes, making their prediction decisions opaque. Clarity and transparency are vital in the field of mental health. This paper presents an explainable AI (XAI) framework for understanding humour style classification, building upon previous work in computational humour analysis. Using the best-performing single model (ALI+XGBoost) from prior research, we apply comprehensive XAI techniques to analyse how linguistic, emotional, and semantic features contribute to humour style classification decisions. Our analysis reveals distinct patterns in how different humour styles are characterised and misclassified, with particular emphasis on the challenges in distinguishing affiliative humour from other styles. Through detailed examination of feature importance, error patterns, and misclassification cases, we identify key factors influencing model decisions, including emotional ambiguity, context misinterpretation, and target identification. The framework demonstrates significant utility in understanding model behaviour, achieving interpretable insights into the complex interplay of features that define different humour styles. Our findings contribute to both the theoretical understanding of computational humour analysis and practical applications in mental health, content moderation, and digital humanities research.

arxiv情報

著者 Mary Ogbuka Kenneth,Foaad Khosmood,Abbas Edalat
発行日 2025-02-28 17:57:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Explaining Humour Style Classifications: An XAI Approach to Understanding Computational Humour Analysis はコメントを受け付けていません

Connecting Federated ADMM to Bayes

要約

(i)admmおよび(ii)変異ベイズ(VB)に基づいた2つの異なる連合学習アプローチ間の新しい接続を提供し、相補的な強度を組み合わせて新しいバリアントを提案します。
具体的には、ADMMの二重変数が、等方性ガウス共分散を備えたVBで使用される「サイト」パラメーターを介して自然に出現することを示します。
これを使用して、それぞれ柔軟な共分散と機能的正則化を使用するVBからADMMの2つのバージョンを導き出します。
数値実験を通じて、パフォーマンスで得られた改善を検証します。
この作品は、根本的に異なると考えられている2つの分野間の関係を示しており、それらを組み合わせて連合学習を改善します。

要約(オリジナル)

We provide new connections between two distinct federated learning approaches based on (i) ADMM and (ii) Variational Bayes (VB), and propose new variants by combining their complementary strengths. Specifically, we show that the dual variables in ADMM naturally emerge through the ‘site’ parameters used in VB with isotropic Gaussian covariances. Using this, we derive two versions of ADMM from VB that use flexible covariances and functional regularisation, respectively. Through numerical experiments, we validate the improvements obtained in performance. The work shows connection between two fields that are believed to be fundamentally different and combines them to improve federated learning.

arxiv情報

著者 Siddharth Swaroop,Mohammad Emtiyaz Khan,Finale Doshi-Velez
発行日 2025-02-28 17:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Connecting Federated ADMM to Bayes はコメントを受け付けていません

L-Lipschitz Gershgorin ResNet Network

要約

深い残留ネットワーク(RESNET)は、ディープアーキテクチャを通る勾配の流れを維持する能力に起因する、コンピュータービジョンタスクでの顕著な成功を実証しています。
同時に、ニューラルネットワークにバインドされたリプシッツを制御することは、敵対的な堅牢性とネットワークの認定可能性を高めるための重要な研究領域として浮上しています。
このペーパーでは、厳密なアプローチを使用して、線形マトリックス不等式(LMI)フレームワークを使用して、$ \ mathcal {l} $ -lipschitzディープ残留ネットワークを設計します。
resNetアーキテクチャは、$ \ mathcal {l} $ -lipschitzの連続性を確保するために、ネットワークパラメーターの導出された閉じた要素と派生した閉じた形式を備えた擬似三角LMIとして再定式化されました。
このようなマトリックス構造の明示的な固有値計算の欠如に対処するために、Gershgorin Circle定理は、LMIの負の半定義を保証する固有値位置を近似するために使用されました。
私たちの貢献には、リプシッツが制約したネットワークを構築するための証明可能なパラメーター化方法論と、階層アーキテクチャ内で再帰システムを管理するための構成フレームワークが含まれます。
これらの調査結果により、敵対的な堅牢性、認定トレーニング、および制御システムに適用可能な堅牢なネットワーク設計が可能になります。
ただし、ガーシュゴリンベースの近似で制限が特定され、システムが過剰に制約され、非線形ダイナミクスが抑制され、ネットワークの表現能力が低下しました。

要約(オリジナル)

Deep residual networks (ResNets) have demonstrated outstanding success in computer vision tasks, attributed to their ability to maintain gradient flow through deep architectures. Simultaneously, controlling the Lipschitz bound in neural networks has emerged as an essential area of research for enhancing adversarial robustness and network certifiability. This paper uses a rigorous approach to design $\mathcal{L}$-Lipschitz deep residual networks using a Linear Matrix Inequality (LMI) framework. The ResNet architecture was reformulated as a pseudo-tri-diagonal LMI with off-diagonal elements and derived closed-form constraints on network parameters to ensure $\mathcal{L}$-Lipschitz continuity. To address the lack of explicit eigenvalue computations for such matrix structures, the Gershgorin circle theorem was employed to approximate eigenvalue locations, guaranteeing the LMI’s negative semi-definiteness. Our contributions include a provable parameterization methodology for constructing Lipschitz-constrained networks and a compositional framework for managing recursive systems within hierarchical architectures. These findings enable robust network designs applicable to adversarial robustness, certified training, and control systems. However, a limitation was identified in the Gershgorin-based approximations, which over-constrain the system, suppressing non-linear dynamics and diminishing the network’s expressive capacity.

arxiv情報

著者 Marius F. R. Juston,William R. Norris,Dustin Nottage,Ahmet Soylemezoglu
発行日 2025-02-28 17:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | L-Lipschitz Gershgorin ResNet Network はコメントを受け付けていません

Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots

要約

ヒューマノイドロボットの基礎能力には、堅牢に立っている、歩いて、全身の動きと部分的な運動の模倣を含める必要があります。
この作業では、マスクされたヒューマノイドコントローラー(MHC)を紹介します。これは、障害に対するバランスと堅牢性を確保しながら、ヒューマノイド状態変数の選択されたサブセット上のターゲット軌跡を追跡することにより、これらすべての機能をサポートします。
MHCは、スタンディング、ウォーキング、最適化された参照軌跡、再ターゲットのビデオクリップ、および人間のモーションキャプチャデータにまたがる行動ライブラリからの部分的にマスクされた動きを模倣する慎重に設計されたカリキュラムを使用して、シミュレーションのトレーニングを受けています。
また、ジョイスティックベースのコントロールと部分体の運動模倣を組み合わせることもできます。
部分的に指定されたターゲット運動からさまざまな動作を実行するMHCの能力を検証するシミュレーション実験を紹介します。
さらに、実際の数字V3ヒューマノイドロボットでSIMからリアルへの転送を示します。
私たちの知る限り、これは学習したコントローラーの最初のインスタンスであり、このような多様なマルチモーダルターゲットの実世界のヒューマノイドの全身制御を実現できます。

要約(オリジナル)

The foundational capabilities of humanoid robots should include robustly standing, walking, and mimicry of whole and partial-body motions. This work introduces the Masked Humanoid Controller (MHC), which supports all of these capabilities by tracking target trajectories over selected subsets of humanoid state variables while ensuring balance and robustness against disturbances. The MHC is trained in simulation using a carefully designed curriculum that imitates partially masked motions from a library of behaviors spanning standing, walking, optimized reference trajectories, re-targeted video clips, and human motion capture data. It also allows for combining joystick-based control with partial-body motion mimicry. We showcase simulation experiments validating the MHC’s ability to execute a wide variety of behaviors from partially-specified target motions. Moreover, we demonstrate sim-to-real transfer on the real-world Digit V3 humanoid robot. To our knowledge, this is the first instance of a learned controller that can realize whole-body control of a real-world humanoid for such diverse multi-modal targets.

arxiv情報

著者 Pranay Dugar,Aayam Shrestha,Fangzhou Yu,Bart van Marum,Alan Fern
発行日 2025-02-28 18:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots はコメントを受け付けていません

Contextualizing biological perturbation experiments through language

要約

高度な摂動実験により、科学者は前例のない解像度で生体分子システムを調査することができますが、実験および分析コストは、広範な採用に大きな障壁をもたらします。
機械学習には、摂動スペースの効率的な調査を導き、これらのデータから新しい洞察を抽出する可能性があります。
しかし、現在のアプローチは、関連する生物学の意味的な豊かさを無視しており、その目的は下流の生物学的分析と誤って整理されています。
この論文では、大規模な言語モデル(LLM)が複雑な生物学的関係を表現し、実験結果を合理化するための天然媒体を提示すると仮定します。
Perturbqaを提案します。これは、摂動実験を介した構造化された推論のベンチマークです。
主に既存の知識を尋問する現在のベンチマークとは異なり、PerturbQAは、摂動モデリングのオープンな問題に触発されています。目に見えない摂動のための微分表現の予測と方向の変化、および遺伝子セット濃縮。
摂動をモデル化するための最先端の機械学習と統計的アプローチ、および標準的なLLM推論戦略を評価します。現在の方法は、PerturbQAではパフォーマンスが低いことがわかります。
実現可能性の証明として、夏を紹介します(現在の最先端に一致またはそれを超えるシンプルなドメインに基づいたLLMフレームワークを要約、取得、および回答します。コードとデータはhttps://github.com/genentech/perturbqaで公開されています。

要約(オリジナル)

High-content perturbation experiments allow scientists to probe biomolecular systems at unprecedented resolution, but experimental and analysis costs pose significant barriers to widespread adoption. Machine learning has the potential to guide efficient exploration of the perturbation space and extract novel insights from these data. However, current approaches neglect the semantic richness of the relevant biology, and their objectives are misaligned with downstream biological analyses. In this paper, we hypothesize that large language models (LLMs) present a natural medium for representing complex biological relationships and rationalizing experimental outcomes. We propose PerturbQA, a benchmark for structured reasoning over perturbation experiments. Unlike current benchmarks that primarily interrogate existing knowledge, PerturbQA is inspired by open problems in perturbation modeling: prediction of differential expression and change of direction for unseen perturbations, and gene set enrichment. We evaluate state-of-the-art machine learning and statistical approaches for modeling perturbations, as well as standard LLM reasoning strategies, and we find that current methods perform poorly on PerturbQA. As a proof of feasibility, we introduce Summer (SUMMarize, retrievE, and answeR, a simple, domain-informed LLM framework that matches or exceeds the current state-of-the-art. Our code and data are publicly available at https://github.com/genentech/PerturbQA.

arxiv情報

著者 Menghua Wu,Russell Littman,Jacob Levine,Lin Qiu,Tommaso Biancalani,David Richmond,Jan-Christian Huetter
発行日 2025-02-28 18:15:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | Contextualizing biological perturbation experiments through language はコメントを受け付けていません

Can Large Language Models Predict the Outcome of Judicial Decisions?

要約

大規模な言語モデル(LLM)は、多様なドメインにわたって自然言語処理(NLP)に優れた機能を示しています。
ただし、アラビア語のような低リソース言語の法的判断予測(LJP)などの専門的なタスクへの適用は、既存のままです。
この作業では、サウジアラビアの商業裁判所の判決から収集および前処理されたアラビア語のLJPデータセットを開発することにより、このギャップに対処します。
LORAを使用したゼロショット、ワンショット、微調整などのさまざまな構成の下で、Llama-3.2-3bおよびLlama-3.1-8bを含む最先端のオープンソースLLMをベンチマークします。
さらに、LLMを使用して定量的なメトリック(Bleu、Rouge、Bertなど)と定性的評価(一貫性、法律言語、明確さなどを含む)を統合する包括的な評価フレームワークを採用しました。
我々の結果は、微調整された小規模モデルが、タスク固有のコンテキストで大きなモデルに匹敵するパフォーマンスを達成しながら、重要なリソース効率を提供することを示しています。
さらに、多様な一連の指示にモデルを微調整することの影響を調査し、より人間中心の適応性のあるLLMの開発に関する貴重な洞察を提供します。
データセット、コード、モデルを公開され、アラビア語の法的NLPの将来の研究のための強固な基盤を提供するために公開されました。

要約(オリジナル)

Large Language Models (LLMs) have shown exceptional capabilities in Natural Language Processing (NLP) across diverse domains. However, their application in specialized tasks such as Legal Judgment Prediction (LJP) for low-resource languages like Arabic remains underexplored. In this work, we address this gap by developing an Arabic LJP dataset, collected and preprocessed from Saudi commercial court judgments. We benchmark state-of-the-art open-source LLMs, including LLaMA-3.2-3B and LLaMA-3.1-8B, under varying configurations such as zero-shot, one-shot, and fine-tuning using LoRA. Additionally, we employed a comprehensive evaluation framework that integrates both quantitative metrics (such as BLEU, ROUGE, and BERT) and qualitative assessments (including Coherence, Legal Language, Clarity, etc.) using an LLM. Our results demonstrate that fine-tuned smaller models achieve comparable performance to larger models in task-specific contexts while offering significant resource efficiency. Furthermore, we investigate the impact of fine-tuning the model on a diverse set of instructions, offering valuable insights into the development of a more human-centric and adaptable LLM. We have made the dataset, code, and models publicly available to provide a solid foundation for future research in Arabic legal NLP.

arxiv情報

著者 Mohamed Bayan Kmainasi,Ali Ezzat Shahroor,Amani Al-Ghraibah
発行日 2025-02-28 18:27:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can Large Language Models Predict the Outcome of Judicial Decisions? はコメントを受け付けていません

Clustering Context in Off-Policy Evaluation

要約

オフポリシー評価は、記録されたデータを活用して、eコマース、検索エンジン、メディアストリーミングサービス、またはヘルスケアの自動診断ツールの新しいポリシーの有効性を推定することができます。
ただし、ロギングポリシーが評価ポリシーと大きく異なると、IPSのようなベースラインオフポリシー推定器のパフォーマンスは悪化します。
最近の研究では、この問題を軽減するために、同様のアクションで情報を共有することを提案しています。
この作業では、クラスタリングを使用して同様のコンテキストで情報を共有する代替推定器を提案します。
提案された推定器の理論的特性を研究し、異なる条件下でそのバイアスと分散を特徴付けます。
また、さまざまな合成問題における提案された推定器と既存のアプローチのパフォーマンスと、実際の推奨データセットを比較します。
実験結果は、クラスタリングコンテキストにより、特に情報設定が不十分な場合、推定精度が向上することを確認しています。

要約(オリジナル)

Off-policy evaluation can leverage logged data to estimate the effectiveness of new policies in e-commerce, search engines, media streaming services, or automatic diagnostic tools in healthcare. However, the performance of baseline off-policy estimators like IPS deteriorates when the logging policy significantly differs from the evaluation policy. Recent work proposes sharing information across similar actions to mitigate this problem. In this work, we propose an alternative estimator that shares information across similar contexts using clustering. We study the theoretical properties of the proposed estimator, characterizing its bias and variance under different conditions. We also compare the performance of the proposed estimator and existing approaches in various synthetic problems, as well as a real-world recommendation dataset. Our experimental results confirm that clustering contexts improves estimation accuracy, especially in deficient information settings.

arxiv情報

著者 Daniel Guzman-Olivares,Philipp Schmidt,Jacek Golebiowski,Artur Bekasov
発行日 2025-02-28 18:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Clustering Context in Off-Policy Evaluation はコメントを受け付けていません

FANformer: Improving Large Language Models Through Effective Periodicity Modeling

要約

最も重要な基本的な特性の1つとしての定期性は、人間の学習パラダイム内で構造化された知識の習得と体系的な認知プロセスを促進するための基礎を築きます。
ただし、トランスにおける周期性モデリングの潜在的な欠陥は、それに基づいて構築された大規模な言語モデル(LLMS)のデータから基礎となる原則の学習効率と確立に影響します。
この論文では、効果的な周期性モデリングを統合することで、LLMの学習効率とパフォーマンスを改善できることを実証します。
Fourier Analysis Network(Fan)を注意メカニズムに統合して、注意メカニズムの特徴投影プロセスを変更することにより、効率的な周期性モデリングを実現するFanformerを紹介します。
言語モデリングに関する広範な実験結果は、モデルのサイズをスケーリングしてトークンを拡大し、優れた学習効率を強調しているときに、ファンフォーマーがトランスを常に上回ることを示しています。
ファンフォーマーの有効性をさらに検証するために、1兆個のトークンでファンフォーカー1Bを取得します。
Fanformer-1Bは、同様のモデルパラメーターまたはトレーニングトークンを備えたオープンソースLLMと比較して、下流タスクの顕著な改善を示しています。
結果は、LLMを進めるための効果的で有望なアーキテクチャとしてファンフォーマーを位置付けています。

要約(オリジナル)

Periodicity, as one of the most important basic characteristics, lays the foundation for facilitating structured knowledge acquisition and systematic cognitive processes within human learning paradigms. However, the potential flaws of periodicity modeling in Transformer affect the learning efficiency and establishment of underlying principles from data for large language models (LLMs) built upon it. In this paper, we demonstrate that integrating effective periodicity modeling can improve the learning efficiency and performance of LLMs. We introduce FANformer, which integrates Fourier Analysis Network (FAN) into attention mechanism to achieve efficient periodicity modeling, by modifying the feature projection process of attention mechanism. Extensive experimental results on language modeling show that FANformer consistently outperforms Transformer when scaling up model size and training tokens, underscoring its superior learning efficiency. To further validate the effectiveness of FANformer, we pretrain a FANformer-1B on 1 trillion tokens. FANformer-1B exhibits marked improvements on downstream tasks compared to open-source LLMs with similar model parameters or training tokens. The results position FANformer as an effective and promising architecture for advancing LLMs.

arxiv情報

著者 Yihong Dong,Ge Li,Xue Jiang,Yongding Tao,Kechi Zhang,Hao Zhu,Huanyu Liu,Jiazheng Ding,Jia Li,Jinliang Deng,Hong Mei
発行日 2025-02-28 18:52:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | FANformer: Improving Large Language Models Through Effective Periodicity Modeling はコメントを受け付けていません