ChemRxivQuest: A Curated Chemistry Question-Answer Database Extracted from ChemRxiv Preprints

要約

化学文献の急速な拡大は、ドメイン固有の知識に効率的にアクセスしようとする研究者に大きな課題をもたらします。
化学に焦点を当てた自然言語処理(NLP)の進歩をサポートするために、Chemrxivquestを提示します。これは、17のChemRXIVプリプリントから派生した970の高品質の質問回答(QA)ペアのキュレーションデータセットです。
各QAペアは、トレーサビリティとコンテキスト精度を確保するために、そのソーステキストセグメントに明示的にリンクされています。
Chemrxivquestは、光学文字認識(OCR)、GPT-4OベースのQA生成、および回答検証のためのファジーマッチング手法を組み合わせた自動パイプラインを使用して構築されました。
データセットは、概念的、機械的、応用、および実験的な質問を強調し、検索ベースのQAシステム、検索エンジン開発、およびドメインに適応した大規模な言語モデルの微調整を可能にします。
データセットの構造、カバレッジ、制限を分析し、拡張と専門家の検証のための将来の方向性の概要を説明します。
Chemrxivquestは、化学NLP研究、教育、ツール開発の基礎リソースを提供します。

要約(オリジナル)

The rapid expansion of chemistry literature poses significant challenges for researchers seeking to efficiently access domain-specific knowledge. To support advancements in chemistry-focused natural language processing (NLP), we present ChemRxivQuest, a curated dataset of 970 high-quality question-answer (QA) pairs derived from 155 ChemRxiv preprints across 17 subfields of chemistry. Each QA pair is explicitly linked to its source text segment to ensure traceability and contextual accuracy. ChemRxivQuest was constructed using an automated pipeline that combines optical character recognition (OCR), GPT-4o-based QA generation, and a fuzzy matching technique for answer verification. The dataset emphasizes conceptual, mechanistic, applied, and experimental questions, enabling applications in retrieval-based QA systems, search engine development, and fine-tuning of domain-adapted large language models. We analyze the dataset’s structure, coverage, and limitations, and outline future directions for expansion and expert validation. ChemRxivQuest provides a foundational resource for chemistry NLP research, education, and tool development.

arxiv情報

著者 Mahmoud Amiri,Thomas Bocklitz
発行日 2025-05-08 13:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク