Solving Data Quality Problems with Desbordante: a Demo

要約

データ プロファイリングは、現代のデータ駆動型産業において不可欠なプロセスです。
その重要なコンポーネントの 1 つは、関数の依存関係、データ制約、相関ルールなどを含む複雑な統計の検出と検証です。
ただし、複雑な統計に焦点を当てた既存のデータ プロファイリング システムのほとんどは、現代のデータ サイエンティストが使用するツールと適切に統合できません。
これにより、業界でこれらのツールを導入する際に大きな障壁が生じます。
さらに、既存のシステムは産業グレードのワークロードを念頭に置いて作成されていませんでした。
最後に、彼らは記述的な説明、つまり、特定のパターンが見つからない理由を提供することを目的としていません。
データに基づいて情報に基づいた意思決定を行うには、特定のパターンが存在しない根本的な理由を理解することが不可欠であるため、これは重要な問題です。
そのため、これらのパターンは実質的に宙に浮いており、その適用範囲はかなり限定されており、広範な一般の人々によって使用されることはほとんどありません。
同時に、このプレゼンテーションで説明するように、複雑な統計を効率的に使用して、多くの古典的なデータ品質の問題を解決できます。
Desbordante は、このギャップを埋めることを目的としたオープンソースのデータ プロファイラーです。
産業用途に重点を置いて構築されており、効率的でスケーラブルで、クラッシュに対する耐性があり、説明も提供されます。
さらに、マイニングだけでなく、コストのかかるさまざまな操作を C++ コアにオフロードすることで、シームレスな Python 統合を提供します。
このデモでは、エンド ユーザーがさまざまなデータ品質の問題を解決できるようにするいくつかのシナリオを示します。
つまり、タイプミスの検出、データの重複排除、データの異常検出のシナリオを紹介します。

要約(オリジナル)

Data profiling is an essential process in modern data-driven industries. One of its critical components is the discovery and validation of complex statistics, including functional dependencies, data constraints, association rules, and others. However, most existing data profiling systems that focus on complex statistics do not provide proper integration with the tools used by contemporary data scientists. This creates a significant barrier to the adoption of these tools in the industry. Moreover, existing systems were not created with industrial-grade workloads in mind. Finally, they do not aim to provide descriptive explanations, i.e. why a given pattern is not found. It is a significant issue as it is essential to understand the underlying reasons for a specific pattern’s absence to make informed decisions based on the data. Because of that, these patterns are effectively rest in thin air: their application scope is rather limited, they are rarely used by the broader public. At the same time, as we are going to demonstrate in this presentation, complex statistics can be efficiently used to solve many classic data quality problems. Desbordante is an open-source data profiler that aims to close this gap. It is built with emphasis on industrial application: it is efficient, scalable, resilient to crashes, and provides explanations. Furthermore, it provides seamless Python integration by offloading various costly operations to the C++ core, not only mining. In this demonstration, we show several scenarios that allow end users to solve different data quality problems. Namely, we showcase typo detection, data deduplication, and data anomaly detection scenarios.

arxiv情報

著者 George Chernishev,Michael Polyntsov,Anton Chizhov,Kirill Stupakov,Ilya Shchuckin,Alexander Smirnov,Maxim Strutovsky,Alexey Shlyonskikh,Mikhail Firsov,Stepan Manannikov,Nikita Bobrov,Daniil Goncharov,Ilia Barutkin,Vladislav Shalnev,Kirill Muraviev,Anna Rakhmukova,Dmitriy Shcheka,Anton Chernikov,Mikhail Vyrodov,Yaroslav Kurbatov,Maxim Fofanov,Sergei Belokonnyi,Pavel Anosov,Arthur Saliou,Eduard Gaisin,Kirill Smirnov
発行日 2023-07-28 11:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.DB, cs.LG, I.5 パーマリンク