Deep Learning and LLM-based Methods Applied to Stellar Lightcurve Classification

要約

光度曲線は、星の形成と進化に関する貴重な情報源として役立ちます。
機械学習技術の急速な進歩により、それを効果的に処理して天文パターンや情報を抽出できるようになりました。
この研究では、ケプラーと K2 ミッションからの大規模なデータセットに基づいて、変光度曲線を自動分類するための深層学習と大規模言語モデル (LLM) ベースのモデルの包括的な評価を示します。
特にセファイド星、RR こと座星、食連星に重点を置き、観察のリズムと位相分布が分類精度に及ぼす影響を調べます。
AutoDL 最適化を採用することで、1D-Convolution+BiLSTM アーキテクチャと Swin Transformer で驚くべきパフォーマンスを達成し、それぞれ 94\% と 99\% の精度を達成し、後者はとらえどころのないタイプ II セファイドの識別において注目に値する 83\% の精度を実証しました。
-全データセットのわずか 0.02\% で構成されます。StarWhisper LightCurve (LC) は、LLM、マルチモーダル大規模言語モデル (MLLM)、および大規模オーディオ言語モデル (LALM) の 3 つの LLM ベースのモデルで構成される革新的なシリーズです。
各モデルは、天文データに対するこれらのモデルの新たな能力を調査するために、戦略的プロンプト エンジニアリングとカスタマイズされたトレーニング方法で微調整されています。
注目すべきことに、StarWhisper LC シリーズは約 90% という高い精度を示し、明示的な特徴量エンジニアリングの必要性を大幅に減らし、それによって天文学アプリケーションにおける合理化された並列データ処理と多面的なマルチモーダル モデルの進歩への道を切り開きます。
この研究では、深層学習の分類精度に対するフェーズとサンプリング間隔の影響を示す 2 つの詳細なカタログが提供されており、精度を大幅に損なうことなく、観測期間で最大 14\%、サンプリング ポイントで 21\% の大幅な削減が実現できることが示されています。
10\%。

要約(オリジナル)

Light curves serve as a valuable source of information on stellar formation and evolution. With the rapid advancement of machine learning techniques, it can be effectively processed to extract astronomical patterns and information. In this study, we present a comprehensive evaluation of deep-learning and large language model (LLM) based models for the automatic classification of variable star light curves, based on large datasets from the Kepler and K2 missions. Special emphasis is placed on Cepheids, RR Lyrae, and eclipsing binaries, examining the influence of observational cadence and phase distribution on classification precision. Employing AutoDL optimization, we achieve striking performance with the 1D-Convolution+BiLSTM architecture and the Swin Transformer, hitting accuracies of 94\% and 99\% correspondingly, with the latter demonstrating a notable 83\% accuracy in discerning the elusive Type II Cepheids-comprising merely 0.02\% of the total dataset.We unveil StarWhisper LightCurve (LC), an innovative Series comprising three LLM-based models: LLM, multimodal large language model (MLLM), and Large Audio Language Model (LALM). Each model is fine-tuned with strategic prompt engineering and customized training methods to explore the emergent abilities of these models for astronomical data. Remarkably, StarWhisper LC Series exhibit high accuracies around 90\%, significantly reducing the need for explicit feature engineering, thereby paving the way for streamlined parallel data processing and the progression of multifaceted multimodal models in astronomical applications. The study furnishes two detailed catalogs illustrating the impacts of phase and sampling intervals on deep learning classification accuracy, showing that a substantial decrease of up to 14\% in observation duration and 21\% in sampling points can be realized without compromising accuracy by more than 10\%.

arxiv情報

著者 Yu-Yang Li,Yu Bai,Cunshi Wang,Mengwei Qu,Ziteng Lu,Roberto Soria,Jifeng Liu
発行日 2024-04-16 17:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, astro-ph.SR, cs.CL, cs.LG パーマリンク