INDUS: Effective and Efficient Language Models for Scientific Applications

要約

一般的なドメイン コーパスでトレーニングされた大規模言語モデル (LLM) は、自然言語処理 (NLP) タスクで顕著な結果を示しました。
ただし、以前の研究では、ドメインに焦点を当てたコーパスを使用してトレーニングされた LLM は、特殊なタスクでより優れたパフォーマンスを発揮することが実証されました。
この極めて重要な洞察に触発されて、私たちは地球科学、生物学、物理学、太陽物理学、惑星科学、天体物理学の領域に合わせて調整された包括的な LLM スイートである INDUS を開発し、さまざまなデータ ソースから抽出された厳選された科学コーパスを使用してトレーニングされました。
一連のモデルには、(1) 自然言語理解タスクに対処するためにドメイン固有の語彙とコーパスを使用してトレーニングされたエンコーダー モデル、(2) 複数のデータセットから抽出された多様なデータセットを使用してトレーニングされた、対照学習ベースの一般的なテキスト埋め込みモデルが含まれます。
情報検索タスクに対処するためのソース、および (3) 待ち時間やリソースの制約があるアプリケーションに対処するために、知識蒸留技術を使用して作成されたこれらのモデルの小型バージョン。
また、これらの学際的な分野での研究を加速するために、CLIMATE-CHANGE-NER (エンティティ認識)、NASA-QA (抽出 QA)、NASA-IR (IR) という 3 つの新しい科学ベンチマーク データセットも作成しました。
最後に、これらの新しいタスクおよび対象ドメインの既存のベンチマーク タスクにおいて、私たちのモデルが汎用エンコーダー (RoBERTa) と既存のドメイン固有エンコーダー (SciBERT) の両方を上回るパフォーマンスを示すことを示します。

要約(オリジナル)

Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.

arxiv情報

著者 Bishwaranjan Bhattacharjee,Aashka Trivedi,Masayasu Muraoka,Muthukumaran Ramasubramanian,Takuma Udagawa,Iksha Gurung,Rong Zhang,Bharath Dandala,Rahul Ramachandran,Manil Maskey,Kayleen Bugbee,Mike Little,Elizabeth Fancher,Lauren Sanders,Sylvain Costes,Sergi Blanco-Cuaresma,Kelly Lockhart,Thomas Allen,Felix Grazes,Megan Ansdel,Alberto Accomazzi,Yousef El-Kurdi,Davis Wertheimer,Birgit Pfitzmann,Cesar Berrospi Ramis,Michele Dolfi,Rafael Teixeira de Lima,Panos Vegenas,S. Karthik Mukkavilli,Peter Staar,Sanaz Vahidinia,Ryan McGranaghan,Armin Mehrabian,Tsendgar Lee
発行日 2024-05-17 12:15:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク