GeneGPT: Augmenting Large Language Models with Domain Tools for Improved Access to Biomedical Information

要約

タイトル:GeneGPT:ドメインツールを用いた大規模言語モデルの強化により、バイオメディカル情報へのアクセスが改善される

要約:
– 大規模言語モデル(LLM)は、様々なタスクに成功しているものの、幻覚や誤った内容の生成に課題がある。
– データベースユーティリティなどのドメイン特化ツールをLLMに組み込むことで、より専門的な知識に正確で簡単なアクセスを促進する可能性がある。
– 本論文では、GeneGPTというLLMに、National Center for Biotechnology Information(NCBI)のWebアプリケーションプログラミングインターフェイス(API)を使用して、遺伝子に関する質問に答える方法を教える新しい方法を提案している。
– この研究では、Codex(コード・ダ・ヴィンチ-002)を使用して、NCBI APIのURLリクエストを指示し、コンテキスト内で学習を行う。
– 推論中に、リクエストが検出されるとデコードを停止し、生成されたURLでAPIコールを実行する。
– 実行結果は、生成されたテキストに追加され、答えが見つかるか、別のAPIコールが検出されるまで生成を続ける。
– GeneGPTは、GeneTuringデータセットの1ショットタスクのうち3つと5つのゼロショットタスクのうち4つにおいて、最先端の結果を達成する。
– 全体的な結果として、GeneGPTは、New Bing(0.44)、BioMedLM(0.08)、BioGPT(0.04)などの検索拡張LLM、GPT-3(0.16)やChatGPT(0.12)などの他のLLMよりも、マクロ平均スコア0.76を達成した。

要約(オリジナル)

While large language models (LLMs) have been successfully applied to various tasks, they still face challenges with hallucinations and generating erroneous content. Augmenting LLMs with domain-specific tools such as database utilities has the potential to facilitate more precise and straightforward access to specialized knowledge. In this paper, we present GeneGPT, a novel method for teaching LLMs to use the Web Application Programming Interfaces (APIs) of the National Center for Biotechnology Information (NCBI) and answer genomics questions. Specifically, we prompt Codex (code-davinci-002) to solve the GeneTuring tests with few-shot URL requests of NCBI API calls as demonstrations for in-context learning. During inference, we stop the decoding once a call request is detected and make the API call with the generated URL. We then append the raw execution results returned by NCBI APIs to the generated texts and continue the generation until the answer is found or another API call is detected. Our preliminary results show that GeneGPT achieves state-of-the-art results on three out of four one-shot tasks and four out of five zero-shot tasks in the GeneTuring dataset. Overall, GeneGPT achieves a macro-average score of 0.76, which is much higher than retrieval-augmented LLMs such as the New Bing (0.44), biomedical LLMs such as BioMedLM (0.08) and BioGPT (0.04), as well as other LLMs such as GPT-3 (0.16) and ChatGPT (0.12).

arxiv情報

著者 Qiao Jin,Yifan Yang,Qingyu Chen,Zhiyong Lu
発行日 2023-04-21 22:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, q-bio.GN パーマリンク