W-PCA Based Gradient-Free Proxy for Efficient Search of Lightweight Language Models

要約

効率的な自然言語処理(NLP)システムの需要は、軽量言語モデルの開発につながりました。
この分野での以前の研究は、主に手動の設計またはトレーニングベースのニューラルアーキテクチャ検索(NAS)方法に焦点を当てています。
最近、トレーニングを必要とせずに言語モデルを評価するためのゼロショットNASメソッドが提案されています。
ただし、ゼロショットNASへの一般的なアプローチは、偏った評価メトリックや計算の非効率性などの課題に直面することがよくあります。
このホワイトペーパーでは、軽量言語モデルに合わせて特別に調整された新しいゼロショットNASメソッドである重量加重PCA(W-PCA)を紹介します。
当社のアプローチでは、2つの評価プロキシを利用しています。パラメーターカウントと、フィードフォワードニューラル(FFN)層の$ \ eta $を超える累積寄与を持つ主成分の数。
さらに、勾配計算の必要性を排除することにより、評価時間を最適化し、軽量言語モデルの設計と評価の効率を高めます。
接着剤と分隊のデータセットで比較分析を実施して、アプローチを評価します。
結果は、私たちの方法が、ワンショットNASメソッドと比較してトレーニング時間を大幅に短縮し、以前の最先端のトレーニングベースの方法と比較してテスト段階でより高いスコアを達成することを示しています。
さらに、Flexibert検索スペースからサンプリングされたデータセットでランキング評価を実行します。
私たちのアプローチは、優れたランキング相関を示し、勾配計算を必要とする他のゼロショットNASメソッドと比較して、時間をさらに短縮します。

要約(オリジナル)

The demand for efficient natural language processing (NLP) systems has led to the development of lightweight language models. Previous work in this area has primarily focused on manual design or training-based neural architecture search (NAS) methods. Recently, zero-shot NAS methods have been proposed for evaluating language models without the need for training. However, prevailing approaches to zero-shot NAS often face challenges such as biased evaluation metrics and computational inefficiencies. In this paper, we introduce weight-weighted PCA (W-PCA), a novel zero-shot NAS method specifically tailored for lightweight language models. Our approach utilizes two evaluation proxies: the parameter count and the number of principal components with cumulative contribution exceeding $\eta$ in the feed-forward neural (FFN) layer. Additionally, by eliminating the need for gradient computations, we optimize the evaluation time, thus enhancing the efficiency of designing and evaluating lightweight language models. We conduct a comparative analysis on the GLUE and SQuAD datasets to evaluate our approach. The results demonstrate that our method significantly reduces training time compared to one-shot NAS methods and achieves higher scores in the testing phase compared to previous state-of-the-art training-based methods. Furthermore, we perform ranking evaluations on a dataset sampled from the FlexiBERT search space. Our approach exhibits superior ranking correlation and further reduces solving time compared to other zero-shot NAS methods that require gradient computation.

arxiv情報

著者 Shang Wang
発行日 2025-04-22 15:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク