ZeroLM: Data-Free Transformer Architecture Search for Language Models

要約

ニューラルアーキテクチャ検索(NAS)は、ニューラルネットワークアーキテクチャの設計を自動化するための体系的なフレームワークを提供しますが、その広範な採用は、法外な計算要件によって妨げられています。
既存のゼロコストプロキシメソッドは、検索オーバーヘッドを削減しながら、特にシンプルなパラメーターカウントメトリックをパフォーマンスすることが多い変圧器ベースのモデルで、アーキテクチャランキングタスクで不十分なパフォーマンスを示します。
現在の自動化されたプロキシ発見アプローチは、検索時間の延長、データの過剰適合に対する感受性、および構造の複雑さに悩まされています。
このペーパーでは、効率的な重量統計計算を通じてモデル容量を定量化し、トランスアーキテクチャを機能的に異なるサブモジュールに分解し、それによって全体的なパフォーマンスへの貢献のバランスを最適化する新しいゼロコストプロキシ方法論を紹介します。
当社の包括的な評価は、このアプローチの優位性を示しており、SpearmanのRhoの0.76とKendallのTauがFlexibertベンチマークで0.53のタウを達成しています。
提案された方法は、多様なNASベンチマークタスク全体で堅牢なパフォーマンスを維持しながら、例外的な計算効率を示し、大規模なアーキテクチャ検索のための実用的なソリューションを提供します。

要約(オリジナル)

Neural architecture search (NAS) provides a systematic framework for automating the design of neural network architectures, yet its widespread adoption is hindered by prohibitive computational requirements. Existing zero-cost proxy methods, while reducing search overhead, demonstrate inadequate performance in architecture ranking tasks, particularly for Transformer-based models where they often underperform simple parameter counting metrics. Current automated proxy discovery approaches suffer from extended search times, susceptibility to data overfitting, and structural complexity. This paper introduces a novel zero-cost proxy methodology that quantifies model capacity through efficient weight statistics computation while decomposing Transformer architectures into functionally distinct sub-modules, thereby optimizing the balance of their contributions to overall performance. Our comprehensive evaluation demonstrates the superiority of this approach, achieving a Spearman’s rho of 0.76 and Kendall’s tau of 0.53 on the FlexiBERT benchmark. The proposed method exhibits exceptional computational efficiency while maintaining robust performance across diverse NAS benchmark tasks, offering a practical solution for large-scale architecture search.

arxiv情報

著者 Zhen-Song Chen,Hong-Wei Ding,Xian-Jia Wang,Witold Pedrycz
発行日 2025-03-24 13:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク