要約
データの調和は、多様なソースからのデータセットを統合することを伴う重要なタスクです。
この分野での長年の研究にもかかわらず、スキーマの不一致、用語の変化、データ収集の方法論の違いにより、時間がかかる挑戦的なタスクのままです。
このペーパーでは、専門家がデータを調和させ、プロセスを合理化できるようにするための手段として、エージェントデータの調和のケースを提示します。
LLMベースの推論、インタラクティブなユーザーインターフェイス、データ調和のプリミティブのライブラリを組み合わせて、データ調和パイプラインの合成を自動化するHarmoniaを紹介します。
臨床データ調和のシナリオでハーモニアを示します。ここでは、データセットを標準形式にマッピングする再利用可能なパイプラインをインタラクティブに作成するのに役立ちます。
最後に、課題と開かれた問題について議論し、ビジョンを前進させるための研究の方向性を提案します。
要約(オリジナル)
Data harmonization is an essential task that entails integrating datasets from diverse sources. Despite years of research in this area, it remains a time-consuming and challenging task due to schema mismatches, varying terminologies, and differences in data collection methodologies. This paper presents the case for agentic data harmonization as a means to both empower experts to harmonize their data and to streamline the process. We introduce Harmonia, a system that combines LLM-based reasoning, an interactive user interface, and a library of data harmonization primitives to automate the synthesis of data harmonization pipelines. We demonstrate Harmonia in a clinical data harmonization scenario, where it helps to interactively create reusable pipelines that map datasets to a standard format. Finally, we discuss challenges and open problems, and suggest research directions for advancing our vision.
arxiv情報
著者 | Aécio Santos,Eduardo H. M. Pena,Roque Lopez,Juliana Freire |
発行日 | 2025-03-05 18:33:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google