Evaluation of large language models for discovery of gene set function

要約

遺伝子セット分析は機能ゲノミクスの主力ですが、不完全で生物学的状況を認識していない手動で精選された遺伝子機能のデータベースに依存しています。
今回我々は、OpenAI の大規模言語モデル (LLM) である GPT-4 が、埋め込まれた生物医学的知識から一般的な遺伝子機能についての仮説を立てる能力を評価します。
私たちは、遺伝子セットにそのコンセンサス機能を要約した名前をラベル付けするための GPT-4 パイプラインを作成し、分析テキストと引用によって実証しました。
遺伝子オントロジーの名前付き遺伝子セットに対するベンチマークを行うと、GPT-4 は 50% のケースで非常に類似した名前を生成しましたが、残りのほとんどのケースでは、より一般的な概念の名前が復元されました。
オミクスデータで発見された遺伝子セットでは、GPT-4 の名前は遺伝子セットの濃縮よりも有益であり、人間のレビューで主に検証された裏付けとなる記述と引用が含まれていました。
共通の遺伝子機能を迅速に合成する能力により、LLM は貴重な機能的ゲノミクスアシスタントとして位置付けられます。

要約(オリジナル)

Gene set analysis is a mainstay of functional genomics, but it relies on manually curated databases of gene functions that are incomplete and unaware of biological context. Here we evaluate the ability of OpenAI’s GPT-4, a Large Language Model (LLM), to develop hypotheses about common gene functions from its embedded biomedical knowledge. We created a GPT-4 pipeline to label gene sets with names that summarize their consensus functions, substantiated by analysis text and citations. Benchmarking against named gene sets in the Gene Ontology, GPT-4 generated very similar names in 50% of cases, while in most remaining cases it recovered the name of a more general concept. In gene sets discovered in ‘omics data, GPT-4 names were more informative than gene set enrichment, with supporting statements and citations that largely verified in human review. The ability to rapidly synthesize common gene functions positions LLMs as valuable functional genomics assistants.

arxiv情報

著者 Mengzhou Hu,Sahar Alkhairy,Ingoo Lee,Rudolf T. Pillich,Robin Bachelder,Trey Ideker,Dexter Pratt
発行日 2023-09-07 21:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.GN, q-bio.MN パーマリンク