要約
大規模言語モデル (LLM) はさまざまな分野で科学の進歩を大きく推進しており、創造的な解決策で複雑な問題に取り組む能力を多くの論文が実証しています。
私たちの論文では、生物医学的質問応答、固有表現認識、分子生成、分子合成、属性予測などのさまざまな化学的および生物学的タスクを解決できる新しい基盤モデル nach0 を紹介します。
nach0 は、科学文献、特許、分子列からのラベルのないテキストで事前トレーニングされた、マルチドメインおよびマルチタスクのエンコーダー/デコーダー LLM であり、さまざまな化学知識と言語知識を組み込んでいます。
私たちは、特定のタスク関連の命令を利用して、タスクの最終セットに合わせて nach0 を微調整する命令チューニングを採用しました。
nach0 を効果的にトレーニングするために、NeMo フレームワークを活用して、基本モデルと大規模モデルの両方のバージョンの効率的な並列最適化を可能にします。
広範な実験により、私たちのモデルが単一ドメインおよびクロスドメインのタスクにおいて最先端のベースラインを上回るパフォーマンスを示すことが実証されました。
さらに、分子形式およびテキスト形式で高品質の出力を生成でき、マルチドメイン設定での有効性を実証します。
要約(オリジナル)
Large Language Models (LLMs) have substantially driven scientific progress in various domains, and many papers have demonstrated their ability to tackle complex problems with creative solutions. Our paper introduces a new foundation model, nach0, capable of solving various chemical and biological tasks: biomedical question answering, named entity recognition, molecular generation, molecular synthesis, attributes prediction, and others. nach0 is a multi-domain and multi-task encoder-decoder LLM pre-trained on unlabeled text from scientific literature, patents, and molecule strings to incorporate a range of chemical and linguistic knowledge. We employed instruction tuning, where specific task-related instructions are utilized to fine-tune nach0 for the final set of tasks. To train nach0 effectively, we leverage the NeMo framework, enabling efficient parallel optimization of both base and large model versions. Extensive experiments demonstrate that our model outperforms state-of-the-art baselines on single-domain and cross-domain tasks. Furthermore, it can generate high-quality outputs in molecular and textual formats, showcasing its effectiveness in multi-domain setups.
arxiv情報
著者 | Micha Livne,Zulfat Miftahutdinov,Elena Tutubalina,Maksim Kuznetsov,Daniil Polykovskiy,Annika Brundyn,Aastha Jhunjhunwala,Anthony Costa,Alex Aliper,Alex Zhavoronkov |
発行日 | 2023-11-21 07:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google