ChemDFM: Dialogue Foundation Model for Chemistry

要約

大規模言語モデル (LLM) は、自然言語処理の一般的な領域で大きな成功を収めています。
新しいタスクの一般化と自由形式の対話機能は、実際の化学研究を支援するケミカル ジェネラル インテリジェンス (CGI) の設計に大きく役立ちます。
しかし、非常に有益な SMILES 表記法など、化学分野における特殊な言語や知識の存在は、化学における一般領域の LLM のパフォーマンスを妨げています。
この目的を達成するために、私たちは CGI 向けの最初の LLM である ChemDFM を開発します。
ChemDFM-13B は、化学文献、教科書、説明書、および一般領域のさまざまなデータからの 34B トークンに基づいてトレーニングされています。
したがって、高度な自由形式の言語理解機能を備えながら、化学知識と言語を保存、理解、推論することができます。
広範な定量的評価により、ChemDFM が代表的なオープンソース LLM よりも大幅に優れたパフォーマンスを発揮できることが示されています。
さらに、ChemDFM は、サイズが大きく異なるにもかかわらず、化学タスクの大部分において GPT-4 を上回ることもできます。
さらに定性的な評価を行うことで、実際の研究シナリオにおける ChemDFM の効率と有効性が実証されます。
ChemDFM モデルを間もなくオープンソース化する予定です。

要約(オリジナル)

Large language models (LLMs) have established great success in the general domain of natural language processing. Their emerging task generalization and free-form dialogue capabilities can greatly help to design Chemical General Intelligence (CGI) to assist real-world research in chemistry. However, the existence of specialized language and knowledge in the field of chemistry, such as the highly informative SMILES notation, hinders the performance of general-domain LLMs in chemistry. To this end, we develop ChemDFM, the first LLM towards CGI. ChemDFM-13B is trained on 34B tokens from chemical literature, textbooks, and instructions as well as various data from the general domain. Therefore, it can store, understand, and reason over chemical knowledge and languages while still possessing advanced free-form language comprehension capabilities. Extensive quantitative evaluation shows that ChemDFM can significantly outperform the representative open-sourced LLMs. Moreover, ChemDFM can also surpass GPT-4 on a great portion of chemical tasks, despite the significant size difference. Further qualitative evaluations demonstrate the efficiency and effectiveness of ChemDFM in real-world research scenarios. We will open-source the ChemDFM model soon.

arxiv情報

著者 Zihan Zhao,Da Ma,Lu Chen,Liangtai Sun,Zihao Li,Hongshen Xu,Zichen Zhu,Su Zhu,Shuai Fan,Guodong Shen,Xin Chen,Kai Yu
発行日 2024-01-26 12:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL パーマリンク