DACBERT: Leveraging Dependency Agreement for Cost-Efficient Bert Pretraining

要約

Crammed BERT によってもたらされたコスト効率の高い事前トレーニングの進歩を基盤として、新しい事前トレーニング モデルの依存性合意 Crammed BERT (DACBERT) とその 2 段階の事前トレーニング フレームワークである依存性合意事前トレーニングを導入することで、そのパフォーマンスと解釈可能性をさらに強化します。
このフレームワークは言語理論に基づいており、構文と意味論的な情報を事前トレーニング プロセスにシームレスに織り込みます。
最初のステージでは、4 つの専用サブモデルを使用して代表的な依存関係の合意をチャンク レベルで取得し、これらの合意を効果的に埋め込みに変換します。
第 2 段階では、これらの洗練された埋め込みを従来の BERT 埋め込みと併用して、モデルの残りの部分の事前トレーニングをガイドします。
GLUE ベンチマークで評価した場合、当社の DACBERT はさまざまなタスクにわたって顕著な改善を示し、RTE タスクでは 3.13%、MRPC タスクでは 2.26% Crammed BERT を上回りました。
さらに、私たちの方法は平均 GLUE スコアを 0.83% 向上させ、その大きな可能性を強調しています。
事前トレーニング プロセスは 24 時間サイクル内で単一の GPU で効率的に実行できるため、追加の計算リソースを必要とせず、Crammed BERT と比較して事前トレーニング期間を延長することもできません。
広範な研究により、自然言語理解タスク用の事前トレーニング済み言語モデルの解釈可能性を強化する上で、私たちのアプローチが重要な役割を果たしていることがさらに明らかになりました。

要約(オリジナル)

Building on the cost-efficient pretraining advancements brought about by Crammed BERT, we enhance its performance and interpretability further by introducing a novel pretrained model Dependency Agreement Crammed BERT (DACBERT) and its two-stage pretraining framework – Dependency Agreement Pretraining. This framework, grounded by linguistic theories, seamlessly weaves syntax and semantic information into the pretraining process. The first stage employs four dedicated submodels to capture representative dependency agreements at the chunk level, effectively converting these agreements into embeddings. The second stage uses these refined embeddings, in tandem with conventional BERT embeddings, to guide the pretraining of the rest of the model. Evaluated on the GLUE benchmark, our DACBERT demonstrates notable improvement across various tasks, surpassing Crammed BERT by 3.13% in the RTE task and by 2.26% in the MRPC task. Furthermore, our method boosts the average GLUE score by 0.83%, underscoring its significant potential. The pretraining process can be efficiently executed on a single GPU within a 24-hour cycle, necessitating no supplementary computational resources or extending the pretraining duration compared with the Crammed BERT. Extensive studies further illuminate our approach’s instrumental role in bolstering the interpretability of pretrained language models for natural language understanding tasks.

arxiv情報

著者 Martin Kuo,Jianyi Zhang,Yiran Chen
発行日 2023-11-08 16:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク