Text2Cohort: Democratizing the NCI Imaging Data Commons with Natural Language Cohort Discovery


Imaging Data Commons (IDC) は、医療画像研究における共同作業を促進することを目的として、研究者にがん画像データへのオープン アクセスを提供するクラウド ベースのデータベースです。
ただし、コホートの発見と画像データへのアクセスのために IDC データベースにクエリを実行することは、その複雑な性質により研究者にとってかなりの学習曲線を要します。
私たちは、IDC でのユーザーフレンドリーで直観的な自然言語コホートの発見を容易にする大規模言語モデル (LLM) ベースのツールキットである Text2Cohort を開発しました。
Text2Cohorts は、プロンプト エンジニアリングと自動修正を使用してユーザー入力を IDC データベース クエリに変換し、クエリの応答をユーザーに返します。
情報抽出からコホート発見まで、50 の自然言語ユーザー入力に基づいて Text2Cohort を評価します。
結果のクエリと出力は 2 人のコンピューター科学者によって検証され、Text2Cohort の精度と F1 スコアが測定されました。
Text2Cohort は、88% の精度と 0.94 の F1 スコアでクエリとその応答を生成することに成功しました。
ただし、構文エラーと意味エラーのため、6/50 (12%) のユーザー入力に対するクエリの生成に失敗しました。
私たちの結果は、Text2Cohort が正しい応答を含むクエリを生成することに成功したが、データ スキーマの理解不足が原因で失敗する場合があることを示しています。
これらの欠点にもかかわらず、Text2Cohort は、研究者が自然言語をより直観的でユーザーフレンドリーな方法で高レベルの精度で使用して、IDC でホストされているデータを使用してコホートを発見およびキュレーションできるようにする LLM の有用性を実証します。


The Imaging Data Commons (IDC) is a cloud-based database that provides researchers with open access to cancer imaging data, with the goal of facilitating collaboration in medical imaging research. However, querying the IDC database for cohort discovery and access to imaging data has a significant learning curve for researchers due to its complex nature. We developed Text2Cohort, a large language model (LLM) based toolkit to facilitate user-friendly and intuitive natural language cohort discovery in the IDC. Text2Cohorts translates user input into IDC database queries using prompt engineering and autocorrection and returns the query’s response to the user. Autocorrection resolves errors in queries by passing the errors back to the model for interpretation and correction. We evaluate Text2Cohort on 50 natural language user inputs ranging from information extraction to cohort discovery. The resulting queries and outputs were verified by two computer scientists to measure Text2Cohort’s accuracy and F1 score. Text2Cohort successfully generated queries and their responses with an 88% accuracy and F1 score of 0.94. However, it failed to generate queries for 6/50 (12%) user inputs due to syntax and semantic errors. Our results indicate that Text2Cohort succeeded at generating queries with correct responses, but occasionally failed due to a lack of understanding of the data schema. Despite these shortcomings, Text2Cohort demonstrates the utility of LLMs to enable researchers to discover and curate cohorts using data hosted on IDC with high levels of accuracy using natural language in a more intuitive and user-friendly way.


著者 Pranav Kulkarni,Adway Kanhere,Paul H. Yi,Vishwa S. Parekh
発行日 2023-05-16 13:50:33+00:00
