Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes

要約

タイトル:言語モデルは異種混合データレイクの構造化ビューを生成するためのシンプルなシステムを可能にする

要約:
– データ管理コミュニティの長年の目標は、人間の労力やドメイン固有のカスタマイズなしに、半構造化ドキュメントを取り込み、照会可能なテーブルを出力する一般的で自動化されたシステムを開発することです。
– 現在のシステムは、潜在的なドキュメントの種類の多様性を考慮し、単純化する前提条件を使用し、ドメイン固有のトレーニングを行います。
– この論文では、広範なデータに事前にトレーニングされた大規模言語モデル(LLM)を使用することによって、一般性を維持できるかどうかを検討しています。
– LLMは、自然言語タスクの説明に基づいて多様なダウンストリームタスクを実行できます。
– 本研究では、LLMで駆動するシンプルなプロトタイプシステムであるEVAPORATEを提案し、評価します。
– EVAPORATEシステムを実装するための2つの基本的に異なる戦略を確認しました。ドキュメントから直接値を抽出することをLLMに指示するか、抽出を実行するコードを合成するようにLLMに指示するかです。
– 評価により、これら2つのアプローチ間にコストと品質のトレードオフがあることが示されました。
– コードの合成は安価ですが、LLMで各ドキュメントを直接処理するよりも遥かに正確性が低いです。
– 品質を向上させながらコストを低く保つために、多数の候補関数を生成し、弱い監視を使用して、彼らの抽出物をアンサンブルすることで、Code+を提案します。
– EVAPORATE-CODE+は、他の最新のシステムを上回る品質を実現し、LLMで文書を処理するトークン数を平均16リアルワールド評価セットの各々で10kのドキュメントを処理することに対して110倍削減します。

要約(オリジナル)

A long standing goal of the data management community is to develop general, automated systems that ingest semi-structured documents and output queryable tables without human effort or domain specific customization. Given the sheer variety of potential documents, state-of-the art systems make simplifying assumptions and use domain specific training. In this work, we ask whether we can maintain generality by using large language models (LLMs). LLMs, which are pretrained on broad data, can perform diverse downstream tasks simply conditioned on natural language task descriptions. We propose and evaluate EVAPORATE, a simple, prototype system powered by LLMs. We identify two fundamentally different strategies for implementing this system: prompt the LLM to directly extract values from documents or prompt the LLM to synthesize code that performs the extraction. Our evaluations show a cost-quality tradeoff between these two approaches. Code synthesis is cheap, but far less accurate than directly processing each document with the LLM. To improve quality while maintaining low cost, we propose an extended code synthesis implementation, EVAPORATE-CODE+, which achieves better quality than direct extraction. Our key insight is to generate many candidate functions and ensemble their extractions using weak supervision. EVAPORATE-CODE+ not only outperforms the state-of-the art systems, but does so using a sublinear pass over the documents with the LLM. This equates to a 110x reduction in the number of tokens the LLM needs to process, averaged across 16 real-world evaluation settings of 10k documents each.

arxiv情報

著者 Simran Arora,Brandon Yang,Sabri Eyuboglu,Avanika Narayan,Andrew Hojel,Immanuel Trummer,Christopher Ré
発行日 2023-04-19 06:00:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク