BioCPT: Contrastive Pre-trained Transformers with Large-scale PubMed Search Logs for Zero-shot Biomedical Information Retrieval

要約

情報検索 (IR) は、生物医学の知識の取得と臨床上の意思決定のサポートに不可欠です。
最近の進歩により、言語モデル エンコーダがより優れた意味検索を実行できることが示されていますが、そのようなモデルをトレーニングするには、生物医学で取得するのが困難な豊富なクエリ記事アノテーションが必要です。
その結果、ほとんどの生物医学 IR システムは語彙照合のみを実行します。
これに応えて、ゼロショット生物医学 IR 用の、この種では初めての対照的に事前トレーニングされたトランスフォーマー モデルである BioCPT を導入します。
BioCPT をトレーニングするために、私たちは PubMed から 2 億 5,500 万件という前例のない規模のユーザー クリック ログを収集しました。
このようなデータを使用して、対照学習を使用して、密接に統合されたレトリーバーとリランカーのペアをトレーニングします。
実験結果は、BioCPT が 5 つの生物医学 IR タスクで新しい最先端のパフォーマンスを達成し、GPT-3 サイズの cpt-text-XL などのはるかに大きなモデルを含むさまざまなベースラインを上回るパフォーマンスを示していることを示しています。
さらに、BioCPT は、意味評価のためのより優れた生物医学論文および文章表現も生成します。
そのため、BioCPT は、現実世界のさまざまな生物医学 IR タスクに容易に適用できます。
BioCPT API とコードは https://github.com/ncbi/BioCPT で公開されています。

要約(オリジナル)

Information retrieval (IR) is essential in biomedical knowledge acquisition and clinical decision support. While recent progress has shown that language model encoders perform better semantic retrieval, training such models requires abundant query-article annotations that are difficult to obtain in biomedicine. As a result, most biomedical IR systems only conduct lexical matching. In response, we introduce BioCPT, a first-of-its-kind Contrastively Pre-trained Transformer model for zero-shot biomedical IR. To train BioCPT, we collected an unprecedented scale of 255 million user click logs from PubMed. With such data, we use contrastive learning to train a pair of closely-integrated retriever and re-ranker. Experimental results show that BioCPT sets new state-of-the-art performance on five biomedical IR tasks, outperforming various baselines including much larger models such as GPT-3-sized cpt-text-XL. In addition, BioCPT also generates better biomedical article and sentence representations for semantic evaluations. As such, BioCPT can be readily applied to various real-world biomedical IR tasks. BioCPT API and code are publicly available at https://github.com/ncbi/BioCPT.

arxiv情報

著者 Qiao Jin,Won Kim,Qingyu Chen,Donald C. Comeau,Lana Yeganova,John Wilbur,Zhiyong Lu
発行日 2023-07-02 15:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, q-bio.QM パーマリンク