Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches

要約

プロンプトは、大規模言語モデルの新たな機能を活用するための主要なアプローチの 1 つになっています [Brown et al.
NeurIPS 2020、Wei et al.
TMLR 2022、Wei et al.
NeurIPS 2022]。
昨年、研究者や実務家は、LLM を最大限に活用する方法を模索するためにプロンプ​​トを試してきました。
私たちは、80 件の論文を均一に分析することで、ソフトウェアのテストと検証の研究コミュニティが LLM 対応のソリューションをどのように抽象的に構築しているかを詳しく調査します。
より正確には、まず、下流タスクがプロンプトベースのソリューションの青写真を伝えるのに適切な概念であるかどうかを検証したいと考えています。
また、ソリューションにおけるそのようなタスクの数と性質を特定することも目指しています。
このような目標のために、私たちは、テスト、ファジング、デバッグ、脆弱性検出、静的分析、プログラム検証アプローチを含む、ソフトウェア エンジニアリングの問題のかなり多様な領域におけるいくつかのエンジニアリング パターンを正確に特定できるようにする、新しい下流タスク分類法を開発します。

要約(オリジナル)

Prompting has become one of the main approaches to leverage emergent capabilities of Large Language Models [Brown et al. NeurIPS 2020, Wei et al. TMLR 2022, Wei et al. NeurIPS 2022]. During the last year, researchers and practitioners have been playing with prompts to see how to make the most of LLMs. By homogeneously dissecting 80 papers, we investigate in deep how software testing and verification research communities have been abstractly architecting their LLM-enabled solutions. More precisely, first, we want to validate whether downstream tasks are an adequate concept to convey the blueprint of prompt-based solutions. We also aim at identifying number and nature of such tasks in solutions. For such goal, we develop a novel downstream task taxonomy that enables pinpointing some engineering patterns in a rather varied spectrum of Software Engineering problems that encompasses testing, fuzzing, debugging, vulnerability detection, static analysis and program verification approaches.

arxiv情報

著者 Víctor A. Braberman,Flavia Bonomo-Braberman,Yiannis Charalambous,Juan G. Colonna,Lucas C. Cordeiro,Rosiane de Freitas
発行日 2024-04-14 23:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE, I.2.7 パーマリンク