Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation

要約

多くの自然言語処理 (NLP) タスクを解決するための大規模で複雑なブラックボックス モデルの開発と普及に伴い、これらのモデルをストレス テストし、ある程度の解釈可能性や説明可能性を提供する方法の必要性も高まっています。
この点で反事実の例は役に立ちますが、反事実の自動生成はデータとリソースを大量に消費するプロセスです。
このような手法は、事前トレーニングされた言語モデルなどのモデルに依存しており、その後、補助的な、多くの場合タスク固有のデータセットで微調整されますが、特に新しいタスクやデータ ドメインの場合、実際には構築することが不可能な可能性があります。
したがって、この研究では、NLP モデルのストレス テストを目的として、ゼロショット反事実生成に大規模言語モデル (LLM) を活用する可能性を検討します。
私たちは、この生成を​​促進するための構造化パイプラインを提案し、最近の LLM の命令追従機能とテキスト理解機能を効果的に活用して、トレーニングや微調整を必要とせずにゼロショットで高品質の反事実を生成できると仮説を立てています。
NLP のさまざまな下流タスクとともに、さまざまな独自のオープンソース LLM に関する包括的な実験を通じて、ブラックボックス NLP モデルの評価と説明におけるゼロショット反事実ジェネレーターとしての LLM の有効性を探ります。

要約(オリジナル)

With the development and proliferation of large, complex, black-box models for solving many natural language processing (NLP) tasks, there is also an increasing necessity of methods to stress-test these models and provide some degree of interpretability or explainability. While counterfactual examples are useful in this regard, automated generation of counterfactuals is a data and resource intensive process. such methods depend on models such as pre-trained language models that are then fine-tuned on auxiliary, often task-specific datasets, that may be infeasible to build in practice, especially for new tasks and data domains. Therefore, in this work we explore the possibility of leveraging large language models (LLMs) for zero-shot counterfactual generation in order to stress-test NLP models. We propose a structured pipeline to facilitate this generation, and we hypothesize that the instruction-following and textual understanding capabilities of recent LLMs can be effectively leveraged for generating high quality counterfactuals in a zero-shot manner, without requiring any training or fine-tuning. Through comprehensive experiments on a variety of propreitary and open-source LLMs, along with various downstream tasks in NLP, we explore the efficacy of LLMs as zero-shot counterfactual generators in evaluating and explaining black-box NLP models.

arxiv情報

著者 Amrita Bhattacharjee,Raha Moraffah,Joshua Garland,Huan Liu
発行日 2024-11-19 10:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク