Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models

要約

解釈可能な少数の変異特徴のセットに基づいて、複雑な遺伝的基盤を持つ表現型を予測することは、依然として困難な課題です。
従来、このタスクにはデータ駆動型のアプローチが利用されてきましたが、遺伝子型データの高次元な性質により分析と予測が困難になっています。
事前トレーニングされた LLM にエンコードされた広範な知識と、複雑な生物医学概念の処理における LLM の成功に動機付けられ、私たちは、新しい知識主導型フレームワークを使用して、表形式の遺伝子型データの特徴選択とエンジニアリングにおける LLM の能力を調べることにしました。
当社は、思考連鎖とアンサンブルの原則に基づいて設計された強化された特徴出力と堅牢なモデリングのための FREEFORM、フリーフロー推論およびアンサンブルを開発し、LLM の本質的な知識を使用して特徴を選択およびエンジニアリングします。
遺伝的祖先と遺伝性難聴という 2 つの異なる遺伝子型と表現型のデータセットに基づいて評価したところ、このフレームワークは、特にローショットレジームにおいて、いくつかのデータ駆動型手法よりも優れていることがわかりました。
FREEFORM は、オープンソース フレームワークとして GitHub: https://github.com/PennShenLab/FREEFORM で入手できます。

要約(オリジナル)

Predicting phenotypes with complex genetic bases based on a small, interpretable set of variant features remains a challenging task. Conventionally, data-driven approaches are utilized for this task, yet the high dimensional nature of genotype data makes the analysis and prediction difficult. Motivated by the extensive knowledge encoded in pre-trained LLMs and their success in processing complex biomedical concepts, we set to examine the ability of LLMs in feature selection and engineering for tabular genotype data, with a novel knowledge-driven framework. We develop FREEFORM, Free-flow Reasoning and Ensembling for Enhanced Feature Output and Robust Modeling, designed with chain-of-thought and ensembling principles, to select and engineer features with the intrinsic knowledge of LLMs. Evaluated on two distinct genotype-phenotype datasets, genetic ancestry and hereditary hearing loss, we find this framework outperforms several data-driven methods, particularly on low-shot regimes. FREEFORM is available as open-source framework at GitHub: https://github.com/PennShenLab/FREEFORM.

arxiv情報

著者 Joseph Lee,Shu Yang,Jae Young Baik,Xiaoxi Liu,Zhen Tan,Dawei Li,Zixuan Wen,Bojian Hou,Duy Duong-Tran,Tianlong Chen,Li Shen
発行日 2024-10-02 17:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.GN パーマリンク