AstroLLaMA: Towards Specialized Foundation Models in Astronomy

要約

大規模な言語モデルは、多くの人間の言語タスクでは優れていますが、学術天文学のような高度に専門化された領域ではうまくいかないことがよくあります。
このギャップを埋めるために、arXiv の 300,000 以上の天文学要約を使用して LLaMA-2 から微調整された 70 億パラメータ モデルである AstroLLaMA を導入します。
従来の因果言語モデリング用に最適化された AstroLLaMA は、Llama-2 よりも 30% 低いパープレキシティを達成し、顕著なドメイン適応を示します。
私たちのモデルは、パラメーターが大幅に少ないにもかかわらず、最先端の基礎モデルよりも洞察力に富み、科学的に関連性の高いテキスト補完と埋め込み抽出を生成します。
AstroLLaMA は、幅広い微調整の可能性を備えた堅牢なドメイン固有のモデルとして機能します。
この公開リリースは、論文の自動要約や会話型エージェントの開発など、天文学に焦点を当てた研究を促進することを目的としています。

要約(オリジナル)

Large language models excel in many human-language tasks but often falter in highly specialized domains like scholarly astronomy. To bridge this gap, we introduce AstroLLaMA, a 7-billion-parameter model fine-tuned from LLaMA-2 using over 300,000 astronomy abstracts from arXiv. Optimized for traditional causal language modeling, AstroLLaMA achieves a 30% lower perplexity than Llama-2, showing marked domain adaptation. Our model generates more insightful and scientifically relevant text completions and embedding extraction than state-of-the-arts foundation models despite having significantly fewer parameters. AstroLLaMA serves as a robust, domain-specific model with broad fine-tuning potential. Its public release aims to spur astronomy-focused research, including automatic paper summarization and conversational agent development.

arxiv情報

著者 Tuan Dung Nguyen,Yuan-Sen Ting,Ioana Ciucă,Charlie O’Neill,Ze-Chang Sun,Maja Jabłońska,Sandor Kruk,Ernest Perkowski,Jack Miller,Jason Li,Josh Peek,Kartheik Iyer,Tomasz Różański,Pranav Khetarpal,Sharaf Zaman,David Brodrick,Sergio J. Rodríguez Méndez,Thang Bui,Alyssa Goodman,Alberto Accomazzi,Jill Naiman,Jesse Cranney,Kevin Schawinski,UniverseTBD
発行日 2023-09-12 11:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, astro-ph.GA, astro-ph.HE, astro-ph.IM, cs.CL, cs.LG パーマリンク