要約
Testデータの体系的な最小変動を通じてモデルの堅牢性を評価するためのタスクと存在するフレームワークである、Fluke(言語駆動型およびタスクに依存しない堅牢性評価のフレームワーク)を提示します。
Flukeは、正書法から方言やスタイルの品種まで、言語レベル全体で制御されたバリエーションを導入し、修正を生成するために人間の検証で大規模な言語モデル(LLM)を活用します。
4つの多様なNLPタスクで微調整されたモデルとLLMの両方を評価することにより、Flukeの有用性を実証し、(1)言語変動の影響はタスク依存性が高く、一部のテストは特定のタスクにとって重要であるが、他のタスクでは無関係であることを明らかにします。
(2)LLMは微調整されたモデルと比較して全体的な堅牢性が優れていますが、特定の言語変動に対して著しい脆性を示しています。
(3)すべてのモデルは、ほとんどのタスクにわたる否定の変更に対する実質的な脆弱性を示しています。
これらの発見は、モデルの動作を理解するための体系的な堅牢性テストの重要性を強調しています。
要約(オリジナル)
We present FLUKE (Framework for LingUistically-driven and tasK-agnostic robustness Evaluation), a task-agnostic framework for assessing model robustness through systematic minimal variations of test data. FLUKE introduces controlled variations across linguistic levels – from orthography to dialect and style varieties – and leverages large language models (LLMs) with human validation to generate modifications. We demonstrate FLUKE’s utility by evaluating both fine-tuned models and LLMs across four diverse NLP tasks, and reveal that (1) the impact of linguistic variations is highly task-dependent, with some tests being critical for certain tasks but irrelevant for others; (2) while LLMs have better overall robustness compared to fine-tuned models, they still exhibit significant brittleness to certain linguistic variations; (3) all models show substantial vulnerability to negation modifications across most tasks. These findings highlight the importance of systematic robustness testing for understanding model behaviors.
arxiv情報
著者 | Yulia Otmakhova,Hung Thinh Truong,Rahmad Mahendra,Zenan Zhai,Rongxin Zhu,Daniel Beck,Jey Han Lau |
発行日 | 2025-04-24 07:12:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google