LitSumm: Large language models for literature summarisation of non-coding RNAs

要約

動機: ライフサイエンス分野の文献のキュレーションはますます課題となっています。
出版速度の継続的な増加は、世界中のキュレーターの数が比較的固定されていることと相まって、生物医学知識ベースの開発者にとって大きな課題となっています。
関連する文献全体に対応できるリソースを備えているナレッジベースはほとんどなく、すべてのナレッジベースが取り組みに優先順位を付ける必要があります。
結果: この研究では、大規模言語モデル (LLM) を使用して非コーディング RNA に関する文献の要約を生成することにより、RNA 科学におけるキュレーターの時間不足を軽減するための第一歩を踏み出します。
私たちは、商用 LLM と一連のプロンプトとチェックを使用して、正確な参考文献を含む高品質で事実に正確な要約を文献から自動的に生成できることを実証します。
要約の一部に対して手動評価が実施され、その大部分は非常に高い品質と評価されました。
また、最も一般的に使用されている自動評価アプローチも適用しましたが、それらは人間による評価とは相関しないことがわかりました。
最後に、4,600 を超える ncRNA の選択にツールを適用し、生成された概要を RNAcentral リソース経由で利用できるようにします。
私たちは、注意深いプロンプトと自動チェックが適用されれば、自動文献要約は現世代の LLM で実現可能であると結論付けています。
可用性: これらの概要を生成するために使用されるコードはここで見つけることができます: https://github.com/RNAcentral/litscan-summarization およびコンテキストと概要のデータセットはここで見つけることができます: https://huggingface.co/datasets/RNAcentral/
litsumm-v1.
概要は、RNAcentral (https://rnacentral.org/) の RNA レポート ページにも表示されます。

要約(オリジナル)

Motivation: Curation of literature in life sciences is a growing challenge. The continued increase in the rate of publication, coupled with the relatively fixed number of curators worldwide presents a major challenge to developers of biomedical knowledgebases. Very few knowledgebases have resources to scale to the whole relevant literature and all have to prioritise their efforts. Results: In this work, we take a first step to alleviating the lack of curator time in RNA science by generating summaries of literature for non-coding RNAs using large language models (LLMs). We demonstrate that high-quality, factually accurate summaries with accurate references can be automatically generated from the literature using a commercial LLM and a chain of prompts and checks. Manual assessment was carried out for a subset of summaries, with the majority being rated extremely high quality. We also applied the most commonly used automated evaluation approaches, finding that they do not correlate with human assessment. Finally, we apply our tool to a selection of over 4,600 ncRNAs and make the generated summaries available via the RNAcentral resource. We conclude that automated literature summarization is feasible with the current generation of LLMs, provided careful prompting and automated checking are applied. Availability: Code used to produce these summaries can be found here: https://github.com/RNAcentral/litscan-summarization and the dataset of contexts and summaries can be found here: https://huggingface.co/datasets/RNAcentral/litsumm-v1. Summaries are also displayed on the RNA report pages in RNAcentral (https://rnacentral.org/)

arxiv情報

著者 Andrew Green,Carlos Ribas,Nancy Ontiveros-Palacios,Sam Griffiths-Jones,Anton I. Petrov,Alex Bateman,Blake Sweeney
発行日 2024-04-19 14:50:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.GN パーマリンク