Towards Human-Guided, Data-Centric LLM Co-Pilots

要約

機械学習 (ML) には医療に革命をもたらす可能性がありますが、その導入は、分野専門家のニーズと、これらのニーズを堅牢で有効な ML ツールに変換する間の乖離によって妨げられることがよくあります。
技術分野以外の専門家向けに ML を民主化するための LLM ベースのコパイロットの最近の進歩にも関わらず、これらのシステムは依然として主にモデル中心の側面に重点を置いており、データ中心の重要な課題は見落とされています。
この制限は、生データに欠損値、ラベル ノイズ、カスタマイズされた処理が必要なドメイン固有のニュアンスなどの複雑な問題が含まれることが多い、複雑な現実世界の設定では問題になります。
これに対処するために、LLM 副操縦士向けの人主導のデータ中心フレームワークである CliMB-DC を導入します。これは、高度なデータ中心ツールと LLM 主導の推論を組み合わせて、堅牢でコンテキストを認識したデータ処理を可能にします。
CliMB-DC の中核には、動的な計画と適応のための戦略コーディネーターと、正確な実行のための専門化されたワーカー エージェントを組み合わせた、新しいマルチエージェント推論システムが導入されています。
その後、ドメインの専門知識が体系的に組み込まれ、人間参加型のアプローチを使用して推論プロセスをガイドします。
開発を導くために、私たちは副操縦士が対処しなければならない主要なデータ中心の課題の分類を形式化します。
その後、分類の次元に対処するために、最先端のデータ中心ツールを拡張可能なオープンソース アーキテクチャに統合し、研究コミュニティからの新しいツールの追加を容易にします。
実世界の医療データセットを使用して、未キュレーションのデータセットを ML 対応形式に変換する CliMB-DC の能力が、データ中心の課題に対処する既存のコパイロット ベースラインを大幅に上回るパフォーマンスを実証しました。
CliMB-DC は、ヘルスケア、金融、社会科学など、さまざまな分野の専門家が ML を使用して現実世界への影響を促進することに積極的に参加できるようにすることを約束します。

要約(オリジナル)

Machine learning (ML) has the potential to revolutionize healthcare, but its adoption is often hindered by the disconnect between the needs of domain experts and translating these needs into robust and valid ML tools. Despite recent advances in LLM-based co-pilots to democratize ML for non-technical domain experts, these systems remain predominantly focused on model-centric aspects while overlooking critical data-centric challenges. This limitation is problematic in complex real-world settings where raw data often contains complex issues, such as missing values, label noise, and domain-specific nuances requiring tailored handling. To address this we introduce CliMB-DC, a human-guided, data-centric framework for LLM co-pilots that combines advanced data-centric tools with LLM-driven reasoning to enable robust, context-aware data processing. At its core, CliMB-DC introduces a novel, multi-agent reasoning system that combines a strategic coordinator for dynamic planning and adaptation with a specialized worker agent for precise execution. Domain expertise is then systematically incorporated to guide the reasoning process using a human-in-the-loop approach. To guide development, we formalize a taxonomy of key data-centric challenges that co-pilots must address. Thereafter, to address the dimensions of the taxonomy, we integrate state-of-the-art data-centric tools into an extensible, open-source architecture, facilitating the addition of new tools from the research community. Empirically, using real-world healthcare datasets we demonstrate CliMB-DC’s ability to transform uncurated datasets into ML-ready formats, significantly outperforming existing co-pilot baselines for handling data-centric challenges. CliMB-DC promises to empower domain experts from diverse domains — healthcare, finance, social sciences and more — to actively participate in driving real-world impact using ML.

arxiv情報

著者 Evgeny Saveliev,Jiashuo Liu,Nabeel Seedat,Anders Boyd,Mihaela van der Schaar
発行日 2025-01-17 17:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク