要約
自然な対話を通じて天文学との相互作用を可能にする天文学のビジョン言語モデルであるAstrollavaを提示します。
NASAの「その日の天文学額」、NASA/ESAハバブルスペーステレスコープから供給されたキャプションと質問回答ペアを備えた$ \ sim $ 30k画像の多様なデータセットでLlavaモデルを微調整することにより、我々は、天文学的なコンセプトに描かれたオープンな質問に応答できるモデルを作成します。
2段階の微調整プロセスは、天文学ドメインでの画像キャプションと視覚的な質問の両方にモデルを適応させます。
天文学的な視覚的質問にベンチマークに応答し、モデルの重み、コード、およびトレーニングセットをリリースするために、この分野でのオープンソースの作業を促進するために、アストロラバのパフォーマンスを示します。
最後に、事前に訓練された言語モデルとの一般的な天文データの調整に向けたロードマップを提案し、関心のある研究者にこの目的に向けてコラボレーションのためのオープンスペースを提供します。
要約(オリジナル)
We present AstroLLaVA, a vision language model for astronomy that enables interaction with astronomical imagery through natural dialogue. By fine-tuning the LLaVA model on a diverse dataset of $\sim$30k images with captions and question-answer pairs sourced from NASA’s `Astronomy Picture of the Day’, the European Southern Observatory, and the NASA/ESA Hubble Space Telescope, we create a model capable of answering open-ended questions about astronomical concepts depicted visually. Our two-stage fine-tuning process adapts the model to both image captioning and visual question answering in the astronomy domain. We demonstrate AstroLLaVA’s performance on an astronomical visual question answering benchmark and release the model weights, code, and training set to encourage further open source work in this space. Finally, we suggest a roadmap towards general astronomical data alignment with pre-trained language models, and provide an open space for collaboration towards this end for interested researchers.
arxiv情報
著者 | Sharaf Zaman,Michael J. Smith,Pranav Khetarpal,Rishabh Chakrabarty,Michele Ginolfi,Marc Huertas-Company,Maja Jabłońska,Sandor Kruk,Matthieu Le Lain,Sergio José Rodríguez Méndez,Dimitrios Tanoglidis |
発行日 | 2025-04-11 14:36:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google