GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information

要約

大規模言語モデル (LLM) はさまざまなタスクにうまく適用されていますが、依然として幻覚という課題に直面しています。
データベース ユーティリティなどのドメイン固有のツールを使用して LLM を強化すると、専門知識へのより簡単かつ正確なアクセスが容易になります。
この論文では、ゲノミクスの質問に答えるために国立バイオテクノロジー情報センター (NCBI) の Web API を使用するように LLM に教えるための新しい方法である GeneGPT を紹介します。
具体的には、Codex に対し、コンテキスト内学習と、API 呼び出しを検出して実行できる拡張デコード アルゴリズムによって、NCBI Web API を使用して GeneTuring テストを解決するよう促します。
実験結果は、GeneGPT が GeneTuring ベンチマークの 8 つのタスクで平均スコア 0.83 で最先端のパフォーマンスを達成し、新しい Bing などの検索拡張 LLM (0.44)、BioMedLM などの生物医学 LLM (0.08) を大幅に上回っていることを示しています。
) および BioGPT (0.04)、GPT-3 (0.16) および ChatGPT (0.12)。
さらなる分析により、(1) API のデモンストレーションはタスク間の汎用性が高く、コンテキスト内での学習にはドキュメントよりも有用であることがわかります。
(2) GeneGPT は、API 呼び出しのより長いチェーンに一般化でき、この研究で導入された新しいデータセットである GeneHop でマルチホップの質問に答えることができます。
(3) さまざまなタイプのエラーがさまざまなタスクで強化され、将来の改善のための貴重な洞察が得られます。

要約(オリジナル)

While large language models (LLMs) have been successfully applied to various tasks, they still face challenges with hallucinations. Augmenting LLMs with domain-specific tools such as database utilities can facilitate easier and more precise access to specialized knowledge. In this paper, we present GeneGPT, a novel method for teaching LLMs to use the Web APIs of the National Center for Biotechnology Information (NCBI) for answering genomics questions. Specifically, we prompt Codex to solve the GeneTuring tests with NCBI Web APIs by in-context learning and an augmented decoding algorithm that can detect and execute API calls. Experimental results show that GeneGPT achieves state-of-the-art performance on eight tasks in the GeneTuring benchmark with an average score of 0.83, largely surpassing retrieval-augmented LLMs such as the new Bing (0.44), biomedical LLMs such as BioMedLM (0.08) and BioGPT (0.04), as well as GPT-3 (0.16) and ChatGPT (0.12). Our further analyses suggest that: (1) API demonstrations have good cross-task generalizability and are more useful than documentations for in-context learning; (2) GeneGPT can generalize to longer chains of API calls and answer multi-hop questions in GeneHop, a novel dataset introduced in this work; (3) Different types of errors are enriched in different tasks, providing valuable insights for future improvements.

arxiv情報

著者 Qiao Jin,Yifan Yang,Qingyu Chen,Zhiyong Lu
発行日 2023-05-16 13:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.GN パーマリンク