AttentionSmithy: A Modular Framework for Rapid Transformer Development and Customization

要約

トランスアーキテクチャはAIアプリケーションを変換しましたが、低レベルの実装の専門知識を欠くドメインの専門家向けにカスタマイズするために複雑なままです。
注意モジュール、フィードフォワードネットワーク、正規化レイヤー、および位置エンコーディングなど、主要なコンポーネントを再利用可能なビルディングブロックに分解することにより、トランスの革新を簡素化するモジュール式ソフトウェアパッケージであるAttentionsmithyを紹介します。
ユーザーは、大規模なコーディングなしでトランスのバリエーションを迅速にプロトタイプおよび評価できます。
当社のフレームワークは、4つの位置エンコーディング戦略をサポートし、自動設計のニューラルアーキテクチャ検索と統合します。
リソースの制約の下で元のトランスを複製し、位置エンコーディングを組み合わせて翻訳パフォーマンスを最適化することにより、Attentionsmithyを検証します。
さらに、遺伝子特異的モデリングにおける適応性を示し、細胞型分類で95%以上の精度を達成します。
これらのケーススタディは、フレームワークの実装障壁を削除することにより、多様な分野で研究を加速する可能性を強調しています。

要約(オリジナル)

Transformer architectures have transformed AI applications but remain complex to customize for domain experts lacking low-level implementation expertise. We introduce AttentionSmithy, a modular software package that simplifies transformer innovation by breaking down key components into reusable building blocks: attention modules, feed-forward networks, normalization layers, and positional encodings. Users can rapidly prototype and evaluate transformer variants without extensive coding. Our framework supports four positional encoding strategies and integrates with neural architecture search for automated design. We validate AttentionSmithy by replicating the original transformer under resource constraints and optimizing translation performance by combining positional encodings. Additionally, we demonstrate its adaptability in gene-specific modeling, achieving over 95% accuracy in cell type classification. These case studies highlight AttentionSmithy’s potential to accelerate research across diverse fields by removing framework implementation barriers.

arxiv情報

著者 Caleb Cranney,Jesse G. Meyer
発行日 2025-02-13 17:15:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク