Measuring the Robustness of Natural Language Processing Models to Domain Shifts

要約

ドメイン・ロバストネス(DR)に関する既存の研究は、セットアップがバラバラであること、評価タスクが多様性に欠けること、チャレンジセットに依存していることなどの問題を抱えている。本稿では、基本的な問題を提起する:大規模言語モデル(LLM)の時代において、DR課題はどのような状況にあるのか?この目的を達成するために、我々は、文レベル、トークンレベルの分類、QA、生成などの多様なNLPタスクからなるDRベンチマークを構築する。我々は、自然なドメインシフト設定における、微調整された少数ショットの学習モデルのDRへの挑戦を探求し、OOD(Out-of-Distribution)性能劣化の2つの診断指標を考案する:一般的に使用されているソースドロップ(SD)と、見過ごされているターゲットドロップ(TD)である。我々の発見は、重要な洞察を明らかにした:第二に、TDは平均的なOOD劣化をSDよりもよく近似している。第三に、ドメインシフトのかなりの割合において、SDかTDのどちらかが正であり、両方は正ではないため、どちらかを無視すると誤ったDR結論につながる。

要約(オリジナル)

Existing research on Domain Robustness (DR) suffers from disparate setups, lack of evaluation task variety, and reliance on challenge sets. In this paper, we pose a fundamental question: What is the state of affairs of the DR challenge in the era of Large Language Models (LLMs)? To this end, we construct a DR benchmark comprising diverse NLP tasks, including sentence and token-level classification, QA, and generation, each task consists of several domains. We explore the DR challenge of fine-tuned and few-shot learning models in natural domain shift settings and devise two diagnostic metrics of Out-of-Distribution (OOD) performance degradation: The commonly used Source Drop (SD) and the overlooked Target Drop (TD). Our findings reveal important insights: First, despite their capabilities, zero-to-few shot LLMs and fine-tuning approaches still fail to meet satisfactory performance in the OOD context; Second, TD approximates better than SD the average OOD degradation; Third, in a significant proportion of domain shifts, either SD or TD is positive, but not both, and therefore disregarding one can lead to incorrect DR conclusions.

arxiv情報

著者 Nitay Calderon,Naveh Porat,Eyal Ben-David,Zorik Gekhman,Nadav Oved,Roi Reichart
発行日 2023-07-01 18:05:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク