要約
この論文では、科学の歴史、哲学、社会学 (HPSS) における科学概念の文脈上の意味や進化する意味を研究するための新しいツールとしての文脈化単語埋め込み (CWE) の可能性を探ります。
「プランク」という用語をテスト ケースとして使用し、さまざまな程度のドメイン固有の事前トレーニングで 5 つの BERT ベースのモデルを評価します。その中には、2,184 万件を含むデータセットである Astro-HEP コーパスでトレーニングされたカスタム モデル Astro-HEP-BERT も含まれます。
天体物理学と高エネルギー物理学に関する 600,000 件の記事からのパラグラフ。
この分析のために、私は 2 つのラベル付きデータセットを編集しました: (1) Astro-HEP コーパスの 1,500 段落からサンプリングされた 2,900 件のラベル付き「プランク」の出現で構成される Astro-HEP-Planck コーパス、および (2) 物理学関連の Wikipedia
885 段落にわたる 1,186 件のラベル付き「プランク」の出現で構成されるデータセット。
結果は、私が開発した新しい純度指標によって測定されるように、ドメイン適応モデルが、ターゲット用語の曖昧さをなくし、その既知の意味を予測し、高品質のセンスクラスターを生成する点で汎用モデルよりも優れていることを示しています。
さらに、このアプローチは、ラベルなしの Astro-HEP コーパスにおける 30 年間にわたるターゲット用語の意味の変化を明らかにし、支配的な意味としてのプランク宇宙ミッションの出現を強調します。
この研究は、科学言語を分析するためのドメイン固有の事前トレーニングの重要性を強調し、事前トレーニングされたモデルを HPSS 研究に適応させることの費用対効果を実証しています。
CWE は、科学的概念の意味をモデル化するための拡張可能で移転可能な方法を提供することにより、科学的言説の社会歴史的力学を調査するための新しい道を切り開きます。
要約(オリジナル)
This paper explores the potential of contextualized word embeddings (CWEs) as a new tool in the history, philosophy, and sociology of science (HPSS) for studying contextual and evolving meanings of scientific concepts. Using the term ‘Planck’ as a test case, I evaluate five BERT-based models with varying degrees of domain-specific pretraining, including my custom model Astro-HEP-BERT, trained on the Astro-HEP Corpus, a dataset containing 21.84 million paragraphs from 600,000 articles in astrophysics and high-energy physics. For this analysis, I compiled two labeled datasets: (1) the Astro-HEP-Planck Corpus, consisting of 2,900 labeled occurrences of ‘Planck’ sampled from 1,500 paragraphs in the Astro-HEP Corpus, and (2) a physics-related Wikipedia dataset comprising 1,186 labeled occurrences of ‘Planck’ across 885 paragraphs. Results demonstrate that the domain-adapted models outperform the general-purpose ones in disambiguating the target term, predicting its known meanings, and generating high-quality sense clusters, as measured by a novel purity indicator I developed. Additionally, this approach reveals semantic shifts in the target term over three decades in the unlabeled Astro-HEP Corpus, highlighting the emergence of the Planck space mission as a dominant sense. The study underscores the importance of domain-specific pretraining for analyzing scientific language and demonstrates the cost-effectiveness of adapting pretrained models for HPSS research. By offering a scalable and transferable method for modeling the meanings of scientific concepts, CWEs open up new avenues for investigating the socio-historical dynamics of scientific discourses.
arxiv情報
著者 | Arno Simons |
発行日 | 2024-11-21 12:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google