要約
現在および将来の天文台からのデータの量は、天文学のための自動機械学習方法論の開発と応用の増加を動機付けています。
しかし、天文学や天体物理学のさまざまな機械学習アルゴリズムのパフォーマンスを評価するための標準化されたデータセットの作成にはあまり注目されていません。
ここでは、MiraBest データセットについて詳細に説明します。これは、NVSS および FIRST からの 1256 個のラジオ大音量 AGN の公開バッチ データセットであり、$0.03 < z < 0.1$ にフィルタリングされ、Fanaroff-Riley 形態学に従って Miraghaei and Best (2017) によって手動でラベル付けされています。
分類。機械学習アプリケーション用に作成され、標準の深層学習ライブラリとの使用に互換性があります。
データセットの構築の基礎となる原理、サンプルの選択と前処理の方法論、データセットの構造と構成、さらに文献で使用されている他のデータセットと MiraBest の比較について概説します。
MiraBest データセットを利用する既存のアプリケーションがレビューされ、機械学習アプリケーションの文献でより広く使用されている他の高出力 AGN カタログと MiraBest を相互照合することによって、2,100 ソースの拡張データセットが作成されます。
要約(オリジナル)
The volume of data from current and future observatories has motivated the increased development and application of automated machine learning methodologies for astronomy. However, less attention has been given to the production of standardised datasets for assessing the performance of different machine learning algorithms within astronomy and astrophysics. Here we describe in detail the MiraBest dataset, a publicly available batched dataset of 1256 radio-loud AGN from NVSS and FIRST, filtered to $0.03 < z < 0.1$, manually labelled by Miraghaei and Best (2017) according to the Fanaroff-Riley morphological classification, created for machine learning applications and compatible for use with standard deep learning libraries. We outline the principles underlying the construction of the dataset, the sample selection and pre-processing methodology, dataset structure and composition, as well as a comparison of MiraBest to other datasets used in the literature. Existing applications that utilise the MiraBest dataset are reviewed, and an extended dataset of 2100 sources is created by cross-matching MiraBest with other catalogues of radio-loud AGN that have been used more widely in the literature for machine learning applications.
arxiv情報
著者 | Fiona A. M. Porter,Anna M. M. Scaife |
発行日 | 2023-05-18 16:52:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google