Astro-HEP-BERT: A bidirectional language model for studying the meanings of concepts in astrophysics and high energy physics

要約

私は、天体物理学と高エネルギー物理学における概念の意味を研究するために、文脈化された単語埋め込み (CWE) を生成するために特別に設計されたトランスフォーマー ベースの言語モデル、Astro-HEP-BERT を紹介します。
一般的な事前トレーニング済み BERT モデルに基づいて構築された Astro-HEP-BERT は、arXiv 上の 60 万件以上の学術論文から抽出された 2,184 万段落から私が厳選したデータセットである Astro-HEP コーパスを使用して、3 エポックにわたってさらなるトレーニングを受けました。すべてが少なくとも 1 つの論文に属しています
これら 2 つの科学領域のうち。
このプロジェクトは、科学の歴史、哲学、社会学 (HPSS) のアプリケーションに双方向変圧器を適応させる有効性と実現可能性の両方を実証します。
トレーニング プロセス全体は、無料で利用できるコード、事前トレーニングされた重み、およびテキスト入力を使用して実行され、1 台の MacBook Pro ラップトップ (M2/96GB) で完了しました。
予備評価によると、Astro-HEP-BERT の CWE は、ドメイン固有の語義の曖昧さ回避と誘導、および関連する意味変更分析のために、大規模なデータセットでゼロからトレーニングされたドメイン適応型 BERT モデルと同等のパフォーマンスを発揮します。
これは、HPSS 研究者にとって、特定の科学分野向けに一般的な言語モデルを再トレーニングすることが費用対効果が高く効率的な戦略となり、最初から大規模なトレーニングを必要とせずに高いパフォーマンスを実現できることを示唆しています。

要約(オリジナル)

I present Astro-HEP-BERT, a transformer-based language model specifically designed for generating contextualized word embeddings (CWEs) to study the meanings of concepts in astrophysics and high-energy physics. Built on a general pretrained BERT model, Astro-HEP-BERT underwent further training over three epochs using the Astro-HEP Corpus, a dataset I curated from 21.84 million paragraphs extracted from more than 600,000 scholarly articles on arXiv, all belonging to at least one of these two scientific domains. The project demonstrates both the effectiveness and feasibility of adapting a bidirectional transformer for applications in the history, philosophy, and sociology of science (HPSS). The entire training process was conducted using freely available code, pretrained weights, and text inputs, completed on a single MacBook Pro Laptop (M2/96GB). Preliminary evaluations indicate that Astro-HEP-BERT’s CWEs perform comparably to domain-adapted BERT models trained from scratch on larger datasets for domain-specific word sense disambiguation and induction and related semantic change analyses. This suggests that retraining general language models for specific scientific domains can be a cost-effective and efficient strategy for HPSS researchers, enabling high performance without the need for extensive training from scratch.

arxiv情報

著者 Arno Simons
発行日 2024-11-22 11:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.6, physics.hist-ph パーマリンク