Revisit Input Perturbation Problems for LLMs: A Unified Robustness Evaluation Framework for Noisy Slot Filling Task

要約

大規模言語モデル (LLM) の機能の向上に伴い、これらの高性能モデルは、幅広い自然言語処理 (NLP) タスクで最先端の結果を達成しています。
ただし、一般的に使用されるベンチマーク データセットでのモデルのパフォーマンスは、現実世界のノイズの多いデータに適用すると、その信頼性と堅牢性を正確に反映できないことがよくあります。
これらの課題に対処するために、さまざまな入力摂動シナリオにおけるLLMの対話理解能力を系統的に評価するための、スロット充填タスクに基づいた統合ロバスト性評価フレームワークを提案します。
具体的には、5 種類の単一摂動データと 4 種類の混合摂動データを含む入力摂動評価データセット Noise-LLM を構築します。
さらに、マルチレベルのデータ拡張手法(文字、単語、文レベル)を利用して候補データプールを構築し、さまざまなプロンプトを備えた 2 つの自動タスクデモンストレーション構築戦略(インスタンスレベルとエンティティレベル)を慎重に設計します。
テンプレート。
私たちの目的は、LLM のさまざまな堅牢性手法が実際のノイズの多いシナリオでどの程度うまく機能するかを評価することです。
実験により、現在のオープンソース LLM が達成する摂動ロバスト性の性能は一般的に限定的であることが実証されました。
これらの実験的観察に基づいて、私たちはこの方向の研究を推進するためのいくつかの前向きな提案を行います。

要約(オリジナル)

With the increasing capabilities of large language models (LLMs), these high-performance models have achieved state-of-the-art results on a wide range of natural language processing (NLP) tasks. However, the models’ performance on commonly-used benchmark datasets often fails to accurately reflect their reliability and robustness when applied to real-world noisy data. To address these challenges, we propose a unified robustness evaluation framework based on the slot-filling task to systematically evaluate the dialogue understanding capability of LLMs in diverse input perturbation scenarios. Specifically, we construct a input perturbation evaluation dataset, Noise-LLM, which contains five types of single perturbation and four types of mixed perturbation data. Furthermore, we utilize a multi-level data augmentation method (character, word, and sentence levels) to construct a candidate data pool, and carefully design two ways of automatic task demonstration construction strategies (instance-level and entity-level) with various prompt templates. Our aim is to assess how well various robustness methods of LLMs perform in real-world noisy scenarios. The experiments have demonstrated that the current open-source LLMs generally achieve limited perturbation robustness performance. Based on these experimental observations, we make some forward-looking suggestions to fuel the research in this direction.

arxiv情報

著者 Guanting Dong,Jinxu Zhao,Tingfeng Hui,Daichi Guo,Wenlong Wan,Boqi Feng,Yueyan Qiu,Zhuoma Gongque,Keqing He,Zechen Wang,Weiran Xu
発行日 2023-10-10 10:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク