Identifying Planetary Names in Astronomy Papers: A Multi-Step Approach

要約

天文学の出版物における惑星の特徴名の自動識別には、多くの課題が伴います。
これらの特徴には、衝突または火山活動によって生じるほぼ円形の窪みとして定義されるクレーターが含まれます。
背部は細長い隆起構造またはしわの隆起です。
そして、「湖」と呼ばれる、月にある暗く滑らかな物質の小さな不規則な斑点であるラクス(惑星名ワーキンググループ、未発見)。
いくつか例を挙げると、シリア、テンペ、アインシュタイン、セーガンなど、地物の名前の多くは、その名前の由来となった場所や人名と重複しています (米国地質調査所、未確認)。
一部の地物名はさまざまな文脈で使用されています。たとえば、アポロは、クレーターに加えて、ミッション、プログラム、サンプル、宇宙飛行士、地震計、地震計、コア、時代、データ、コレクション、機器、ステーションを指します。
ムーン。
月のクレーターの黒、緑、白など、一部の地物名はテキスト内に形容詞として表示されることがあります。
他の文脈では、月の西と南のクレーターのように、方向として機能する地物名もあります。
さらに、月と火星の両方に存在するアダムズ クレーターなど、一部の地物は異なる天体間で同じ名前を共有しているため、曖昧さ回避が必要です。
ルールベースのフィルタリング、統計的関連性分析、品詞 (POS) タグ付け、固有表現認識 (NER) モデル、ハイブリッド キーワード収集、ナレッジ グラフ (KG) マッチング、および推論を組み合わせた複数ステップのパイプラインを紹介します。
これらの課題にもかかわらず、惑星名を確実に識別するために、ローカルにインストールされた大規模言語モデル (LLM) が使用されています。
Astrophysics Data System (ADS) の天文学論文のデータセットで評価すると、この方法論は惑星の特徴名の曖昧さを排除する上で 0.97 を超える F1 スコアを達成します。

要約(オリジナル)

The automatic identification of planetary feature names in astronomy publications presents numerous challenges. These features include craters, defined as roughly circular depressions resulting from impact or volcanic activity; dorsas, which are elongate raised structures or wrinkle ridges; and lacus, small irregular patches of dark, smooth material on the Moon, referred to as ‘lake’ (Planetary Names Working Group, n.d.). Many feature names overlap with places or people’s names that they are named after, for example, Syria, Tempe, Einstein, and Sagan, to name a few (U.S. Geological Survey, n.d.). Some feature names have been used in many contexts, for instance, Apollo, which can refer to mission, program, sample, astronaut, seismic, seismometers, core, era, data, collection, instrument, and station, in addition to the crater on the Moon. Some feature names can appear in the text as adjectives, like the lunar craters Black, Green, and White. Some feature names in other contexts serve as directions, like craters West and South on the Moon. Additionally, some features share identical names across different celestial bodies, requiring disambiguation, such as the Adams crater, which exists on both the Moon and Mars. We present a multi-step pipeline combining rule-based filtering, statistical relevance analysis, part-of-speech (POS) tagging, named entity recognition (NER) model, hybrid keyword harvesting, knowledge graph (KG) matching, and inference with a locally installed large language model (LLM) to reliably identify planetary names despite these challenges. When evaluated on a dataset of astronomy papers from the Astrophysics Data System (ADS), this methodology achieves an F1-score over 0.97 in disambiguating planetary feature names.

arxiv情報

著者 Golnaz Shapurian,Michael J Kurtz,Alberto Accomazzi
発行日 2023-12-17 23:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.CL, cs.LG パーマリンク