No Need to Talk: Asynchronous Mixture of Language Models

要約

SmallTalk LMを紹介する。SmallTalk LMは、言語モデルの混合モデルをほぼ非同期で学習する革新的な手法である。混合モデルの各モデルは、データ分布の異なる部分に特化しており、各モデルを学習するノード間で広帯域通信を行う必要はない。推論では、軽量ルーターが、短い接頭辞に従って、与えられたシーケンスを1人の専門家に指示する。この推論スキームは、混合モデル全体から得られるパラメータの一部を自然に使用する。言語モデリングに関する実験では、SmallTalk LMは、同じ総トレーニングFLOPsとほぼ同じ推論コストで、密なモデルのベースラインよりも有意に低い当惑度を達成することが実証されました。最後に、下流の評価では、75%$のタスクで密なベースラインを上回った。

要約(オリジナル)

We introduce SmallTalk LM, an innovative method for training a mixture of language models in an almost asynchronous manner. Each model of the mixture specializes in distinct parts of the data distribution, without the need of high-bandwidth communication between the nodes training each model. At inference, a lightweight router directs a given sequence to a single expert, according to a short prefix. This inference scheme naturally uses a fraction of the parameters from the overall mixture model. Our experiments on language modeling demonstrate tha SmallTalk LM achieves significantly lower perplexity than dense model baselines for the same total training FLOPs and an almost identical inference cost. Finally, in our downstream evaluations we outperform the dense baseline on $75\%$ of the tasks.

arxiv情報

著者 Anastasiia Filippova,Angelos Katharopoulos,David Grangier,Ronan Collobert
発行日 2024-10-04 15:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク