要約
機械学習モデルは現在、天文学の調査を容易にするために日常的に使用されていますが、モデルの入力は主要なデータ ソース (つまり、画像または時系列)、およびより高度なアプローチでは一部のメタデータに限定される傾向があります。
しかし、広視野で多重化された観測リソースの使用が増加しているため、関心のある個々の情報源では、利用可能な広範囲の観測モードが存在することがよくあります。
ここでは、天文マルチモーダル データセットを構築し、モデルが複数のモダリティから同時に学習できるようにする自己教師あり事前トレーニング アプローチである AstroM$^3$ を提案します。
具体的には、CLIP (Contrastive Language-Image Pretraining) モデルを三峰性設定に拡張し、時系列測光データ、スペクトル、天体物理学的メタデータの統合を可能にします。
微調整された教師あり設定では、CLIP 事前トレーニングにより時系列測光の分類パフォーマンスが向上し、精度が 84.6% から 91.5% に向上することが結果からわかります。
さらに、CLIP は、ラベル付きデータの利用可能性が限られている場合に分類精度を最大 12.6% 向上させ、ラベルなしデータの大規模なコーパスを活用する有効性を示しています。
微調整された分類に加えて、自己教師ありモデルの構築中に明示的に考慮されていない他の下流タスクでトレーニング済みモデルを使用できます。
特に、誤分類の識別、類似性検索、および異常検出に学習された埋め込みを使用する有効性を示します。
驚くべきハイライトの 1 つは、多様体学習と次元削減アルゴリズムを使用した、Mira サブタイプと 2 つの回転変数サブクラスの「再発見」です。
私たちの知る限り、これは天文学における $n>2$ モード モデルの最初の構築です。
このアプローチでは、$n>3$ モードへの拡張が当然予想されます。
要約(オリジナル)
While machine-learned models are now routinely employed to facilitate astronomical inquiry, model inputs tend to be limited to a primary data source (namely images or time series) and, in the more advanced approaches, some metadata. Yet with the growing use of wide-field, multiplexed observational resources, individual sources of interest often have a broad range of observational modes available. Here we construct an astronomical multimodal dataset and propose AstroM$^3$, a self-supervised pre-training approach that enables a model to learn from multiple modalities simultaneously. Specifically, we extend the CLIP (Contrastive Language-Image Pretraining) model to a trimodal setting, allowing the integration of time-series photometry data, spectra, and astrophysical metadata. In a fine-tuning supervised setting, our results demonstrate that CLIP pre-training improves classification performance for time-series photometry, where accuracy increases from 84.6% to 91.5%. Furthermore, CLIP boosts classification accuracy by up to 12.6% when the availability of labeled data is limited, showing the effectiveness of leveraging larger corpora of unlabeled data. In addition to fine-tuned classification, we can use the trained model in other downstream tasks that are not explicitly contemplated during the construction of the self-supervised model. In particular we show the efficacy of using the learned embeddings for misclassifications identification, similarity search, and anomaly detection. One surprising highlight is the ‘rediscovery’ of Mira subtypes and two Rotational variable subclasses using manifold learning and dimension reduction algorithm. To our knowledge this is the first construction of an $n>2$ mode model in astronomy. Extensions to $n>3$ modes is naturally anticipated with this approach.
arxiv情報
著者 | Mariia Rizhko,Joshua S. Bloom |
発行日 | 2024-11-13 18:20:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google