Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example

要約

経験的ソフトウェア エンジニアリングは、重大なギャップに直面しています。それは、テスト駆動ソフトウェア実験 (TDSE) の迅速な開発と実行、つまり、ソフトウェア サブジェクトの実行とその「事実上の」観察と分析を伴う実験のための標準化されたツールの欠如です。
実行時の動作。
このペーパーでは、TDSE を実行するためのドメイン固有の言語とデータ構造の最小限のセットを提供する LASSO と呼ばれる汎用分析プラットフォームを紹介します。
LASSO は、ユーザーが実行可能なスクリプト言語を使用して TDSE を設計および実行できるようにすることで、静的に決定されるプロパティに加えて、実行時のセマンティクスと実行特性を効率的に評価できるようにします。
自己完結型で再利用可能で拡張可能なスタディ スクリプトを使用して、コード生成のための LLM の信頼性を評価するための LASSO のスクリプト機能の実際的な利点を示す TDSE の例を示します。
LASSO プラットフォームは https://softwareobservatorium.github.io/ で無料で入手できます。デモ ビデオは YouTube で入手できます: https://youtu.be/tzY9oNTWXzw

要約(オリジナル)

Empirical software engineering faces a critical gap: the lack of standardized tools for rapid development and execution of Test-Driven Software Experiments (TDSEs) – that is, experiments that involve the execution of software subjects and the observation and analysis of their ‘de facto’ run-time behavior. In this paper we present a general-purpose analysis platform called LASSO that provides a minimal set of domain-specific languages and data structures to conduct TDSEs. By empowering users with an executable scripting language to design and execute TDSEs, LASSO enables efficient evaluation of run-time semantics and execution characteristics in addition to statically determined properties. We present an example TDSE that demonstrates the practical benefits of LASSO’s scripting capabilities for assessing the reliability of LLMs for code generation by means of a self-contained, reusable and extensible study script. The LASSO platform is freely available at: https://softwareobservatorium.github.io/, and a demo video is available on YouTube: https://youtu.be/tzY9oNTWXzw

arxiv情報

著者 Marcus Kessel
発行日 2024-10-11 15:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, D.2.1 パーマリンク