Specialising and Analysing Instruction-Tuned and Byte-Level Language Models for Organic Reaction Prediction

要約

トランスフォーマーベースのエンコーダー/デコーダー モデルは、化学反応予測タスクにおいて優れた結果を実証しました。
ただし、これらのモデルは通常、数千万個のラベルされていない分子を使用した事前トレーニングに依存しており、時間がかかり、GPU を大量に使用する可能性があります。
この研究で私たちが答えようとしている中心的な質問の 1 つは、言語データのみで事前トレーニングされたエンコード/デコーダー モデルである FlanT5 と ByT5 を、タスク固有の微調整を通じて効果的に有機反応予測に特化できるかということです。
私たちは、トークン化、(SMILES 指向の) 事前トレーニングの影響、サンプル効率の微調整、推論時のデコード アルゴリズムなど、プロセスのいくつかの重要な問題について体系的な実証研究を実施します。
私たちの主な発見は、FlanT5 と ByT5 は言語タスクのみで事前トレーニングされているにもかかわらず、反応予測を微調整するための強固な基盤を提供し、そのプロセスで「化学ドメイン互換」になることを示しています。
これは、ラベルされていない分子の大規模なデータセットに対する GPU を大量に使用する高価な事前トレーニングが、化学の言語モデルの力を活用するためには役立つかもしれないが、必須ではないことを示唆しています。
当社のすべてのモデルは、同等のトップ 1 およびトップ 5 の精度を達成していますが、モデルごとに多少のばらつきは存在します。
特に、トークン化と語彙のトリミングは最終的なパフォーマンスにわずかに影響しますが、トレーニングと推論を高速化できます。
最も効率的な貪欲なデコード戦略は非常に競争力がありますが、より洗練されたデコード アルゴリズムからはわずかな利益しか得られません。
要約すると、FlanT5 と ByT5 をいくつかの側面で評価し、有機反応予測に対するそれらの影響をベンチマークします。これにより、将来、化学関連のタスクでこれらの最先端の言語モデルをより効果的に使用できるようになります。

要約(オリジナル)

Transformer-based encoder-decoder models have demonstrated impressive results in chemical reaction prediction tasks. However, these models typically rely on pretraining using tens of millions of unlabelled molecules, which can be time-consuming and GPU-intensive. One of the central questions we aim to answer in this work is: Can FlanT5 and ByT5, the encode-decoder models pretrained solely on language data, be effectively specialised for organic reaction prediction through task-specific fine-tuning? We conduct a systematic empirical study on several key issues of the process, including tokenisation, the impact of (SMILES-oriented) pretraining, fine-tuning sample efficiency, and decoding algorithms at inference. Our key findings indicate that although being pretrained only on language tasks, FlanT5 and ByT5 provide a solid foundation to fine-tune for reaction prediction, and thus become `chemistry domain compatible’ in the process. This suggests that GPU-intensive and expensive pretraining on a large dataset of unlabelled molecules may be useful yet not essential to leverage the power of language models for chemistry. All our models achieve comparable Top-1 and Top-5 accuracy although some variation across different models does exist. Notably, tokenisation and vocabulary trimming slightly affect final performance but can speed up training and inference; The most efficient greedy decoding strategy is very competitive while only marginal gains can be achieved from more sophisticated decoding algorithms. In summary, we evaluate FlanT5 and ByT5 across several dimensions and benchmark their impact on organic reaction prediction, which may guide more effective use of these state-of-the-art language models for chemistry-related tasks in the future.

arxiv情報

著者 Jiayun Pang,Ivan Vulić
発行日 2024-05-17 08:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.BM パーマリンク