Text2Cohort: Democratizing the NCI Imaging Data Commons with Natural Language Cohort Discovery

要約

Imaging Data Commons(IDC)は、医用画像研究のコラボレーションを促進することを目的に、がん画像データと解析用ツールへのオープンアクセスを研究者に提供するクラウドベースのデータベースである。しかし、コホート発見や画像データへのアクセスのためにIDCデータベースを照会することは、その複雑かつ技術的な性質から、研究者にとって大きな学習曲線となります。我々は、プロンプトエンジニアリングによってユーザー入力をIDCデータベースクエリに変換し、クエリの応答をユーザーに返すことによって、自然言語によるコホート発見を促進する大規模言語モデル(LLM)ベースのツールキットであるText2Cohortを開発しました。さらに、自動修正機能が実装されており、クエリに含まれる構文や意味の誤りを、解釈と修正のためにモデルへ戻すことで解決します。Text2Cohortを、情報抽出からコホート発見まで、50の自然言語によるユーザー入力で評価しました。得られたクエリーとアウトプットは、2人のコンピュータ科学者によって検証され、Text2Cohortの精度とF1スコアが測定されました。Text2Cohortは、88%の精度と0.94のF1スコアでクエリとその応答を生成することに成功しました。しかし、6つのユーザー入力に対しては、構文や意味上のエラーによりクエリの生成に失敗しました。この結果から、Text2Cohortは正しい応答を持つクエリを生成することに成功したが、データスキーマの理解が不十分であったために失敗することがあったことがわかる。このような欠点はあるものの、Text2Cohortは、LLMの有用性を示し、研究者がIDCにホストされているデータを使ってコホートを発見しキュレーションすることを、自然言語を用いてより直感的でユーザーフレンドリーな方法で驚くほど正確に実現し、IDCへのアクセスを民主化することを可能にします。

要約(オリジナル)

The Imaging Data Commons (IDC) is a cloud-based database that provides researchers with open access to cancer imaging data and tools for analysis, with the goal of facilitating collaboration in medical imaging research. However, querying the IDC database for cohort discovery and access to imaging data has a significant learning curve for researchers due to its complex and technical nature. We developed Text2Cohort, a large language model (LLM) based toolkit to facilitate natural language cohort discovery by translating user input into IDC database queries through prompt engineering and returning the query’s response to the user. Furthermore, autocorrection is implemented to resolve syntax and semantic errors in queries by passing the errors back to the model for interpretation and correction. We evaluate Text2Cohort on 50 natural language user inputs ranging from information extraction to cohort discovery. The resulting queries and outputs were verified by two computer scientists to measure Text2Cohort’s accuracy and F1 score. Text2Cohort successfully generated queries and their responses with an 88% accuracy and F1 score of 0.94. However, it failed to generate queries for six user inputs due to syntax and semantic errors. Our results indicate that Text2Cohort succeeded at generating queries with correct responses, but occasionally failed due to a poor understanding of the data schema. Despite these shortcomings, Text2Cohort demonstrates the utility of LLMs to enable researchers to discover and curate cohorts using data hosted on IDC with incredible accuracy using natural language in a more intuitive and user-friendly way, thus democratizing access to the IDC.

arxiv情報

著者 Pranav Kulkarni,Adway Kanhere,Paul H. Yi,Vishwa S. Parekh
発行日 2023-05-12 17:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.HC, cs.IR, cs.LG パーマリンク