要約
辞書学習(DL)は、大規模な言語モデルの強力な解釈可能性ツールとして浮上しています。
人間の解釈可能なデータ(テキストなど)から既知の概念(ゴールデンゲートブリッジなど)を抽出することにより、まばらなDLはモデルの内側の動作を解明できます。
この作業では、DLを使用して、人間が解釈できない科学データ(細胞画像など)から未知の概念を発見し、最終的に科学的発見に対する最新のアプローチを可能にするかどうかを尋ねます。
最初のステップとして、DLアルゴリズムを使用して、マルチセル画像データでトレーニングされた顕微鏡基盤モデルを研究します。
まばらな辞書が実際に細胞型や遺伝的摂動タイプなどの生物学的に意味のある概念を抽出することを示します。
また、反復的なコードブック機能学習〜(ICFL)を提案し、コントロールデータセットからPCAホワイトニングを使用する前処理ステップと組み合わせます。
実験では、ICFLとPCAの両方が、TOPKスパースオートエンコーダーと比較して、抽出された特徴の選択性を改善することを実証します。
要約(オリジナル)
Dictionary learning (DL) has emerged as a powerful interpretability tool for large language models. By extracting known concepts (e.g., Golden-Gate Bridge) from human-interpretable data (e.g., text), sparse DL can elucidate a model’s inner workings. In this work, we ask if DL can also be used to discover unknown concepts from less human-interpretable scientific data (e.g., cell images), ultimately enabling modern approaches to scientific discovery. As a first step, we use DL algorithms to study microscopy foundation models trained on multi-cell image data, where little prior knowledge exists regarding which high-level concepts should arise. We show that sparse dictionaries indeed extract biologically-meaningful concepts such as cell type and genetic perturbation type. We also propose Iterative Codebook Feature Learning~(ICFL) and combine it with a pre-processing step which uses PCA whitening from a control dataset. In our experiments, we demonstrate that both ICFL and PCA improve the selectivity of extracted features compared to TopK sparse autoencoders.
arxiv情報
著者 | Konstantin Donhauser,Kristina Ulicna,Gemma Elyse Moran,Aditya Ravuri,Kian Kenyon-Dean,Cian Eastwood,Jason Hartford |
発行日 | 2025-02-11 16:54:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google