要約
現在の分子理解は、人間の知覚の記述的側面に主に焦点を当て、広範なトピックレベルの洞察を提供します。
ただし、分子概念を特定の構造コンポーネントにリンクする参照の側面は、ほとんど説明されていません。
このギャップに対処するために、モデルの参照能力を評価するために設計された分子接地ベンチマークを提案します。
NLP、化学情報学、および分子科学の確立された慣習と分子の接地を整列させ、科学運動のためのAI内の分子理解を進めるためのNLP技術の可能性を示します。
さらに、79K QAペアで構成される最大の分子理解ベンチマークをこれまでに構築し、概念実証としてマルチエージェント接地プロトタイプを開発しました。
このシステムは、GPT-4Oを含む既存のモデルよりも優れており、その接地出力は統合されており、分子キャプションやATC(解剖学的、治療、化学)分類などの従来のタスクを強化しています。
要約(オリジナル)
Current molecular understanding approaches predominantly focus on the descriptive aspect of human perception, providing broad, topic-level insights. However, the referential aspect — linking molecular concepts to specific structural components — remains largely unexplored. To address this gap, we propose a molecular grounding benchmark designed to evaluate a model’s referential abilities. We align molecular grounding with established conventions in NLP, cheminformatics, and molecular science, showcasing the potential of NLP techniques to advance molecular understanding within the AI for Science movement. Furthermore, we constructed the largest molecular understanding benchmark to date, comprising 79k QA pairs, and developed a multi-agent grounding prototype as proof of concept. This system outperforms existing models, including GPT-4o, and its grounding outputs have been integrated to enhance traditional tasks such as molecular captioning and ATC (Anatomical, Therapeutic, Chemical) classification.
arxiv情報
著者 | Jiaxin Wu,Ting Zhang,Rubing Chen,Wengyu Zhang,Chen Jason Zhang,Xiaoyong Wei,Li Qing |
発行日 | 2025-04-01 06:49:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google