Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting

要約

チェックリストなどの自然言語処理 (NLP) モデルの動作テストにおける最近の研究は、ソフトウェア エンジニアリング テストの関連パラダイムからインスピレーションを受けています。
これらにより、一般的な言語能力と領域理解を評価できるため、概念的な健全性を評価し、モデルの弱点を特定するのに役立ちます。
ただし、大きな課題はテスト ケースの作成です。
現在のパッケージは、手動開発を使用した半自動アプローチに依存していますが、これにはドメインの専門知識が必要であり、時間がかかる場合があります。
このペーパーでは、大規模な言語モデルと統計手法の力を活用してテスト ケースを開発するための自動化されたアプローチを紹介します。
テキスト表現をクラスタリングして意味のあるグループを慎重に構築し、プロンプト手法を適用して最小限の機能テスト (MFT) を自動的に生成します。
有名な Amazon レビュー コーパスは、私たちのアプローチを示すために使用されます。
4 つの異なる分類アルゴリズムにわたって行動テストのプロファイルを分析し、それらのモデルの限界と強みについて説明します。

要約(オリジナル)

Recent work in behavioral testing for natural language processing (NLP) models, such as Checklist, is inspired by related paradigms in software engineering testing. They allow evaluation of general linguistic capabilities and domain understanding, hence can help evaluate conceptual soundness and identify model weaknesses. However, a major challenge is the creation of test cases. The current packages rely on semi-automated approach using manual development which requires domain expertise and can be time consuming. This paper introduces an automated approach to develop test cases by exploiting the power of large language models and statistical techniques. It clusters the text representations to carefully construct meaningful groups and then apply prompting techniques to automatically generate Minimal Functionality Tests (MFT). The well-known Amazon Reviews corpus is used to demonstrate our approach. We analyze the behavioral test profiles across four different classification algorithms and discuss the limitations and strengths of those models.

arxiv情報

著者 Ying Li,Rahul Singh,Tarun Joshi,Agus Sudjianto
発行日 2024-08-08 16:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.LG パーマリンク