A Declarative System for Optimizing AI Workloads

要約

最新の AI モデルは、ほぼあらゆる種類のデータに関する分析クエリを処理するという長年の夢への鍵を提供します。
最近まで、企業文書から事実を抽出したり、科学論文からデータを抽出したり、画像やビデオのコーパスから洞察を抽出したりするのは難しく、コストがかかりました。
現在のモデルは、これらのタスクを高精度で実行できます。
ただし、AI を活用した実質的なクエリに答えたいプログラマーは、多数のモデル、プロンプト、データ操作を調整する必要があります。
単一のクエリに対しても、プログラマはモデルの選択、適切な推論方法、最もコスト効率の高い推論ハードウェア、理想的なプロンプト設計など、膨大な数の決定を下す必要があります。
最適な一連の決定は、クエリの変化や急速に進化する技術情勢の変化に応じて変化する可能性があります。
このペーパーでは、宣言型言語で定義するだけで、誰でも AI を活用した分析クエリを処理できるシステムである Palimpzest を紹介します。
このシステムは、AI モデルの検索空間、プロンプト手法、関連する基礎モデルの最適化を調査するコスト最適化フレームワークを使用して、実行時間、財務コスト、出力データ品質の間で最適なトレードオフを実現するクエリを実装します。
AI を活用した分析タスクのワークロード、Palimpzest が使用する最適化手法、およびプロトタイプ システム自体について説明します。
当社では、法的証拠開示、不動産調査、医療スキーマ マッチングのタスクに関して Palimpzest を評価しています。
シンプルなプロトタイプでも、ベースライン方法よりも 3.3 倍高速で 2.9 倍安価で、より優れたデータ品質を提供するプランなど、さまざまな魅力的なプランが提供されることを示します。
並列処理を有効にすると、Palimpzest は、シングルスレッド GPT-4 ベースラインと比較して 9.1 倍低いコストで最大 90.3 倍高速化したプランを作成でき、同時にベースラインの 83.5% 以内の F1 スコアを取得できます。
これらには、ユーザーによる追加の作業は必要ありません。

要約(オリジナル)

Modern AI models provide the key to a long-standing dream: processing analytical queries about almost any kind of data. Until recently, it was difficult and expensive to extract facts from company documents, data from scientific papers, or insights from image and video corpora. Today’s models can accomplish these tasks with high accuracy. However, a programmer who wants to answer a substantive AI-powered query must orchestrate large numbers of models, prompts, and data operations. For even a single query, the programmer has to make a vast number of decisions such as the choice of model, the right inference method, the most cost-effective inference hardware, the ideal prompt design, and so on. The optimal set of decisions can change as the query changes and as the rapidly-evolving technical landscape shifts. In this paper we present Palimpzest, a system that enables anyone to process AI-powered analytical queries simply by defining them in a declarative language. The system uses its cost optimization framework — which explores the search space of AI models, prompting techniques, and related foundation model optimizations — to implement the query with the best trade-offs between runtime, financial cost, and output data quality. We describe the workload of AI-powered analytics tasks, the optimization methods that Palimpzest uses, and the prototype system itself. We evaluate Palimpzest on tasks in Legal Discovery, Real Estate Search, and Medical Schema Matching. We show that even our simple prototype offers a range of appealing plans, including one that is 3.3x faster, 2.9x cheaper, and offers better data quality than the baseline method. With parallelism enabled, Palimpzest can produce plans with up to a 90.3x speedup at 9.1x lower cost relative to a single-threaded GPT-4 baseline, while obtaining an F1-score within 83.5% of the baseline. These require no additional work by the user.

arxiv情報

著者 Chunwei Liu,Matthew Russo,Michael Cafarella,Lei Cao,Peter Baille Chen,Zui Chen,Michael Franklin,Tim Kraska,Samuel Madden,Gerardo Vitagliano
発行日 2024-05-23 15:31:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, H.2.3; I.2.5 パーマリンク