要約
近年、大量のデータを分析するためにデータ サイエンス テクノロジを適用することに対する学界や産業界の関心が高まっているのを目の当たりにしています。
このプロセスでは、無数のアーティファクト (データセット、パイプライン スクリプトなど) が作成されます。
しかし、これらの成果物に暗黙のうちに含まれるすべての知識と経験を総合的に収集して活用する体系的な試みはこれまで行われていませんでした。
代わりに、データ サイエンティストは同僚から情報や専門知識を回収したり、試行錯誤して学習したりします。
したがって、このペーパーでは、機械学習とナレッジ グラフ テクノロジを採用して、データ サイエンスの成果物とその接続のセマンティクスを抽象化して取得する、スケーラブルなプラットフォーム KGLiDS を紹介します。
この情報に基づいて、KGLiDS はデータ検出やパイプライン自動化などのさまざまなダウンストリーム アプリケーションを可能にします。
当社の包括的な評価では、データ検出、データ クリーニング、変換、AutoML のユースケースをカバーしています。
これは、KGLiDS が最先端のシステムよりもメモリ使用量が少なく、同等以上の精度を達成しながら、大幅に高速であることを示しています。
要約(オリジナル)
In recent years, we have witnessed the growing interest from academia and industry in applying data science technologies to analyze large amounts of data. In this process, a myriad of artifacts (datasets, pipeline scripts, etc.) are created. However, there has been no systematic attempt to holistically collect and exploit all the knowledge and experiences that are implicitly contained in those artifacts. Instead, data scientists recover information and expertise from colleagues or learn via trial and error. Hence, this paper presents a scalable platform, KGLiDS, that employs machine learning and knowledge graph technologies to abstract and capture the semantics of data science artifacts and their connections. Based on this information, KGLiDS enables various downstream applications, such as data discovery and pipeline automation. Our comprehensive evaluation covers use cases in data discovery, data cleaning, transformation, and AutoML. It shows that KGLiDS is significantly faster with a lower memory footprint than the state-of-the-art systems while achieving comparable or better accuracy.
arxiv情報
著者 | Mossad Helali,Niki Monjazeb,Shubham Vashisth,Philippe Carrier,Ahmed Helal,Antonio Cavalcante,Khaled Ammar,Katja Hose,Essam Mansour |
発行日 | 2024-03-22 14:14:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google