SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists

要約

NLP における従来のベンチマークでは、通常、静的に保持されたテスト セットを使用します。
ただし、このアプローチではパフォーマンスが過大評価されることが多く、NLP モデルの包括的で解釈可能な動的な評価を提供する機能が不足しています。
最近では、DynaBench (Kiela et al.、2021) や CheckList (Ribeiro et al.、2020) などの研究が、人間による複数ステップの注釈付きパイプラインによって生成されたテスト タイプを使用した NLP モデルの動作テストを通じて、これらの制限に対処しました。
残念ながら、さまざまな種類のテストを手動で作成するには多くの人的労力が必要であり、多くの場合法外なコストがかかります。
この研究では、大規模言語モデル (LLM) を活用して、NLP モデルの包括的な評価のための幅広いテスト タイプを生成するハイブリッド動作テスト フレームワークである SYNTHEVAL を提案します。
SYNTHEVAL は、まず制御生成を使用して LLM 経由で文を生成し、次に LLM によって行われた予測をタスク固有の NLP モデルと比較することで、困難な例を特定します。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
私たちは SYNTHEVAL を感情分析と有害な言語検出という 2 つの分類タスクに適用し、私たちのフレームワークがこれらのタスクにおける強力なモデルの弱点を特定するのに効果的であることを示します。
コードは https://github.com/Loreley99/SynthEval_CheckList で共有されています。

要約(オリジナル)

Traditional benchmarking in NLP typically involves using static held-out test sets. However, this approach often results in an overestimation of performance and lacks the ability to offer comprehensive, interpretable, and dynamic assessments of NLP models. Recently, works like DynaBench (Kiela et al., 2021) and CheckList (Ribeiro et al., 2020) have addressed these limitations through behavioral testing of NLP models with test types generated by a multistep human-annotated pipeline. Unfortunately, manually creating a variety of test types requires much human labor, often at prohibitive cost. In this work, we propose SYNTHEVAL, a hybrid behavioral testing framework that leverages large language models (LLMs) to generate a wide range of test types for a comprehensive evaluation of NLP models. SYNTHEVAL first generates sentences via LLMs using controlled generation, and then identifies challenging examples by comparing the predictions made by LLMs with task-specific NLP models. In the last stage, human experts investigate the challenging examples, manually design templates, and identify the types of failures the taskspecific models consistently exhibit. We apply SYNTHEVAL to two classification tasks, sentiment analysis and toxic language detection, and show that our framework is effective in identifying weaknesses of strong models on these tasks. We share our code in https://github.com/Loreley99/SynthEval_CheckList.

arxiv情報

著者 Raoyuan Zhao,Abdullatif Köksal,Yihong Liu,Leonie Weissweiler,Anna Korhonen,Hinrich Schütze
発行日 2024-08-30 17:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク