要約
多数の多様なソースから情報を統合する必要性は、データ統合システムに大きなスケーラビリティの課題をもたらします。
これらのシステムは、多くの場合、手動で書かれたスキーママッピングに依存しています。これらは、ソースが進化するにつれて複雑でソース固有で、維持するのに費用がかかります。
最近の進歩は、大規模な言語モデル(LLM)が構造と自然のキューの両方を活用することでスキーマの一致を自動化するのに役立つことを示唆していますが、重要な課題は残っています。
このホワイトペーパーでは、スキーママッピングにLLMを使用することに関する3つのコア問題を特定します。(1)入力フレーズと構造に対する感度による一貫性のない出力を特定します。これは、サンプリングと集約技術を通じて対処する方法を提案します。
(2)LLMSの限られたコンテキストウィンドウに負担をかけるより表現力豊かなマッピング(例:GLAV)の必要性。
(3)繰り返されるLLMコールの計算コスト。これは、データ型の予測などの戦略を通じて軽減することを提案します。
要約(オリジナル)
The growing need to integrate information from a large number of diverse sources poses significant scalability challenges for data integration systems. These systems often rely on manually written schema mappings, which are complex, source-specific, and costly to maintain as sources evolve. While recent advances suggest that large language models (LLMs) can assist in automating schema matching by leveraging both structural and natural language cues, key challenges remain. In this paper, we identify three core issues with using LLMs for schema mapping: (1) inconsistent outputs due to sensitivity to input phrasing and structure, which we propose methods to address through sampling and aggregation techniques; (2) the need for more expressive mappings (e.g., GLaV), which strain the limited context windows of LLMs; and (3) the computational cost of repeated LLM calls, which we propose to mitigate through strategies like data type prefiltering.
arxiv情報
著者 | Christopher Buss,Mahdis Safari,Arash Termehchy,Stefan Lee,David Maier |
発行日 | 2025-05-30 15:36:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google