Simple is Better and Large is Not Enough: Towards Ensembling of Foundational Language Models

要約

Foundational Language Model (FLM) では、高度な自然言語処理 (NLP) 研究が行われています。
現在の研究者は、文脈に応じた言語表現、分類、生成を可能にする、より大きな FLM (XLNet、T5 など) を開発しています。
より大きな FLM の開発には大きな利点がありますが、幻覚や予測の不確実性に関する欠点も伴います。
基本的に、大規模な FLM は小規模な FLM (BERT など) と同じ基盤の上に構築されます。
したがって、アンサンブルを通じて実現できる、より小さな FLM の可能性を認識する必要があります。
現在の研究では、ベンチマークおよび現実世界のデータセットで FLM とそのアンサンブルのリアリティ チェックを実行します。
我々は、FLM のアンサンブルが FLM の個人的な注意に影響を与え、異なる FLM の調整と協力の強さを解明できると仮説を立てています。
BERT を利用し、他の 3 つのアンサンブル手法、{Shallow、Semi、Deep} を定義します。Deep-Ensemble では、知識誘導型の強化学習アプローチが導入されています。
私たちは、メンタルヘルスなどのデリケートな分野における NLP の有用性を示すデータセットを使用して、提案された Deep-Ensemble BERT がその大きなバリエーション、つまり BERTlarge よりも何倍も優れていることを発見しました。

要約(オリジナル)

Foundational Language Models (FLMs) have advanced natural language processing (NLP) research. Current researchers are developing larger FLMs (e.g., XLNet, T5) to enable contextualized language representation, classification, and generation. While developing larger FLMs has been of significant advantage, it is also a liability concerning hallucination and predictive uncertainty. Fundamentally, larger FLMs are built on the same foundations as smaller FLMs (e.g., BERT); hence, one must recognize the potential of smaller FLMs which can be realized through an ensemble. In the current research, we perform a reality check on FLMs and their ensemble on benchmark and real-world datasets. We hypothesize that the ensembling of FLMs can influence the individualistic attention of FLMs and unravel the strength of coordination and cooperation of different FLMs. We utilize BERT and define three other ensemble techniques: {Shallow, Semi, and Deep}, wherein the Deep-Ensemble introduces a knowledge-guided reinforcement learning approach. We discovered that the suggested Deep-Ensemble BERT outperforms its large variation i.e. BERTlarge, by a factor of many times using datasets that show the usefulness of NLP in sensitive fields, such as mental health.

arxiv情報

著者 Nancy Tyagi,Aidin Shiri,Surjodeep Sarkar,Abhishek Kumar Umrawal,Manas Gaur
発行日 2023-08-23 17:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク