Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes

要約

タイトル:言語モデルは異種データレイクの構造化ビュー生成のためのシンプルなシステムを実現する

要約:

– データ管理コミュニティの長年の目標は、人間の労力やドメイン固有のカスタマイズなしで、半構造化文書を受け入れ可能なテーブルに変換する一般的で自動化されたシステムを開発することです。
– 多様な文書の可能性があるため、最先端のシステムは簡素化前提を置き、ドメイン固有のトレーニングを使用しています。
– 大規模言語モデル(LLMs)を使用することで汎用性を維持できるかどうか検討します。
– LLMsは、広範囲のデータに対して事前にトレーニングされ、自然言語タスクの説明に基づいて多様な下流タスクを実行できます。
– LLMによって直接文書から値を抽出するか、抽出を実行するコードを合成するかという、2つの基本的に異なる戦略があることを特定します。
– コード合成はコストが少ないですが、LLMで各ドキュメントを直接処理するよりもはるかに精度が低いことが示されています。
– 集団学習を使用して多数の候補関数を生成し、アンサンブル抽出する方法を提案し、低コストで品質を向上させる拡張コード合成実装、EVAPORATE-CODE+を提唱する。
– EVAPORATE-CODE+は、16種類の実世界評価設定で平均10kドキュメントを処理する際のLLMが処理するトークン数を110倍削減し、最先端のシステムを上回る品質を達成します。

要約(オリジナル)

A long standing goal of the data management community is to develop general, automated systems that ingest semi-structured documents and output queryable tables without human effort or domain specific customization. Given the sheer variety of potential documents, state-of-the art systems make simplifying assumptions and use domain specific training. In this work, we ask whether we can maintain generality by using large language models (LLMs). LLMs, which are pretrained on broad data, can perform diverse downstream tasks simply conditioned on natural language task descriptions. We propose and evaluate EVAPORATE, a simple, prototype system powered by LLMs. We identify two fundamentally different strategies for implementing this system: prompt the LLM to directly extract values from documents or prompt the LLM to synthesize code that performs the extraction. Our evaluations show a cost-quality tradeoff between these two approaches. Code synthesis is cheap, but far less accurate than directly processing each document with the LLM. To improve quality while maintaining low cost, we propose an extended code synthesis implementation, EVAPORATE-CODE+, which achieves better quality than direct extraction. Our key insight is to generate many candidate functions and ensemble their extractions using weak supervision. EVAPORATE-CODE+ not only outperforms the state-of-the art systems, but does so using a sublinear pass over the documents with the LLM. This equates to a 110x reduction in the number of tokens the LLM needs to process, averaged across 16 real-world evaluation settings of 10k documents each.

arxiv情報

著者 Simran Arora,Brandon Yang,Sabri Eyuboglu,Avanika Narayan,Andrew Hojel,Immanuel Trummer,Christopher Ré
発行日 2023-04-20 04:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク