Cross Modal Data Discovery over Structured and Unstructured Data Lakes

要約

組織は、データ主導の意思決定のために、ますます大量のデータを収集しています。
これらのデータは多くの場合、数千の構造化データセットと非構造化データセットで構成されるデータ レイクなどの集中リポジトリにダンプされます。
逆に、このようなデータセットの混合により、ユーザーのクエリや分析タスクに関連する要素 (テーブルやドキュメントなど) を発見するという問題が非常に困難になります。
データ発見における最近の取り組みにも関わらず、特に (1) 構造化データセットと非構造化データセットにわたる関係性と関連性の発見という 2 つの面において、問題は依然として広く未解決のままです。この場合、既存の技術は、特定の問題タイプ (例: エンティティなど) に合わせてカスタマイズされているため、スケーラビリティに問題があります。
(2) 発見の精度を高めるために、さまざまな類似性測定とスケッチを効果的な方法で統合するための総合的なシステムを開発する。
この論文では、これら 2 つの制限に対処するための CMDL という新しいデータ検出システムを提案します。
CMDL は、テーブルの構造プロパティを保持しながら、構造化データと非構造化データの両方に対するデータ検出プロセスをサポートします。

要約(オリジナル)

Organizations are collecting increasingly large amounts of data for data driven decision making. These data are often dumped into a centralized repository, e.g., a data lake, consisting of thousands of structured and unstructured datasets. Perversely, such mixture of datasets makes the problem of discovering elements (e.g., tables or documents) that are relevant to a user’s query or an analytical task very challenging. Despite the recent efforts in data discovery, the problem remains widely open especially in the two fronts of (1) discovering relationships and relatedness across structured and unstructured datasets where existing techniques suffer from either scalability, being customized for a specific problem type (e.g., entity matching or data integration), or demolishing the structural properties on its way, and (2) developing a holistic system for integrating various similarity measurements and sketches in an effective way to boost the discovery accuracy. In this paper, we propose a new data discovery system, named CMDL, for addressing these two limitations. CMDL supports the data discovery process over both structured and unstructured data while retaining the structural properties of tables.

arxiv情報

著者 Mohamed Y. Eltabakh,Mayuresh Kunjir,Ahmed Elmagarmid,Mohammad Shahmeer Ahmad
発行日 2023-06-01 17:34:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB パーマリンク