ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing

要約

大規模言語モデル (LLM) の出力を評価することは困難であり、多くの応答を作成し、それを理解する必要があります。
しかし、基本的なプロンプトを超えるツールは、プログラミング API の知識を必要としたり、狭い領域に焦点を当てたり、クローズドソースである傾向があります。
テキスト生成 LLM の迅速なエンジニアリングとオンデマンドの仮説テストのためのオープンソースのビジュアル ツールキットである ChainForge を紹介します。
ChainForge は、モデル間の応答とプロンプトのバリエーションを比較するためのグラフィカル インターフェイスを提供します。
私たちのシステムは、モデルの選択、即時テンプレートの設計、仮説のテスト (監査など) という 3 つのタスクをサポートするように設計されています。
私たちは開発の初期段階で ChainForge をリリースし、学者やオンライン ユーザーとその設計を繰り返しました。
研究室内およびインタビュー調査を通じて、現実世界の設定を含め、さまざまな人々が ChainForge を使用して自分にとって重要な仮説を調査できることがわかりました。
私たちは、プロンプト エンジニアリングと LLM 仮説テストの 3 つのモード、すなわち日和見的探索、限定的評価、および反復改良を特定します。

要約(オリジナル)

Evaluating outputs of large language models (LLMs) is challenging, requiring making — and making sense of — many responses. Yet tools that go beyond basic prompting tend to require knowledge of programming APIs, focus on narrow domains, or are closed-source. We present ChainForge, an open-source visual toolkit for prompt engineering and on-demand hypothesis testing of text generation LLMs. ChainForge provides a graphical interface for comparison of responses across models and prompt variations. Our system was designed to support three tasks: model selection, prompt template design, and hypothesis testing (e.g., auditing). We released ChainForge early in its development and iterated on its design with academics and online users. Through in-lab and interview studies, we find that a range of people could use ChainForge to investigate hypotheses that matter to them, including in real-world settings. We identify three modes of prompt engineering and LLM hypothesis testing: opportunistic exploration, limited evaluation, and iterative refinement.

arxiv情報

著者 Ian Arawjo,Chelse Swoopes,Priyan Vaithilingam,Martin Wattenberg,Elena Glassman
発行日 2023-12-20 16:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, H.5.2 パーマリンク