LangProBe: a Language Programs Benchmark

要約

言語モデル(LMS)をマルチステップ言語プログラムに作成し、モジュラープロンプトを自動的に最適化することは、AIシステムを構築するための主流のパラダイムになりましたが、この分野でのトレードオフは以前にほとんど研究されていません。
Langprobeは、言語プログラムのアーキテクチャと最適化戦略を評価するための最初の大規模なベンチマークであり、タスク、アーキテクチャ、オプティマイザー、およびLMSの選択肢の2000を超える組み合わせを紹介します。
Langprobeを使用して、私たちは、品質とコストのトレードオフに対するプログラムアーキテクチャとオプティマイザー(およびそれらの構成と異なるモデルと一緒に)の影響を研究した最初の人です。
最適化された言語プログラムは、モデルへの生の呼び出しよりも高品質のパレートの改善を提供しますが、同時に、最高のパフォーマンスにどの構成が必要かについての人間の判断(または経験的決定)が実証されていることがわかります。
LangProbeのコードと評価データを開きます。

要約(オリジナル)

Composing language models (LMs) into multi-step language programs and automatically optimizing their modular prompts is now a mainstream paradigm for building AI systems, but the tradeoffs in this space have only scarcely been studied before. We introduce LangProBe, the first large-scale benchmark for evaluating the architectures and optimization strategies for language programs, with over 2000 combinations of tasks, architectures, optimizers, and choices of LMs. Using LangProBe, we are the first to study the impact of program architectures and optimizers (and their compositions together and with different models) on tradeoffs of quality and cost. We find that optimized language programs offer strong cost–quality Pareto improvement over raw calls to models, but simultaneously demonstrate that human judgment (or empirical decisions) about which compositions to pursue is still necessary for best performance. We will open source the code and evaluation data for LangProBe.

arxiv情報

著者 Shangyin Tan,Lakshya A Agrawal,Arnav Singhvi,Liheng Lai,Michael J Ryan,Dan Klein,Omar Khattab,Koushik Sen,Matei Zaharia
発行日 2025-02-27 17:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク