Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations

要約

この論文では、NLP 分野における配布外 (OOD) の堅牢性に関する研究を再検討します。
以前の研究における分布シフト設定には一般的に適切な課題が欠けており、OOD の堅牢性の正確な評価が妨げられていることがわかりました。
これらの問題に対処するために、明確な差別化と困難な分布シフトを保証するベンチマーク構築プロトコルを提案します。
次に、5 つのタスクと 20 のデータセットをカバーする配布外の堅牢性評価のためのベンチマーク スイートである BOSS を紹介します。
BOSS に基づいて、OOD の堅牢性の分析と評価のために、事前トレーニングされた言語モデルで一連の実験を実施します。
まず、バニラの微調整について、ディストリビューション内 (ID) と OOD パフォーマンスの関係を調べます。
内部学習メカニズムを明らかにする 3 つの典型的なタイプを特定します。これにより、ID データセットの進歩と相関して、OOD の堅牢性の予測が容易になる可能性があります。
次に、BOSS で 5 つの古典的な方法を評価したところ、特定のケースではある程度の有効性を示したにもかかわらず、バニラの微調整と比較して大幅な改善が得られないことがわかりました。
さらに、さまざまな適応パラダイムで 5 つの LLM を評価し、十分な ID データが利用可能な場合、ドメイン固有のモデルを微調整すると、ID の例で LLM よりも大幅にパフォーマンスが向上することがわかりました。
ただし、OOD インスタンスの場合、コンテキスト内学習で LLM を優先すると、より良い結果が得られます。
私たちは、微調整された小規模モデルと LLM の両方が、下流のタスクに効果的に対処する上で課題に直面していることを認識しています。
コードは \url{https://github.com/lifan-yuan/OOD_NLP} で公開されています。

要約(オリジナル)

This paper reexamines the research on out-of-distribution (OOD) robustness in the field of NLP. We find that the distribution shift settings in previous studies commonly lack adequate challenges, hindering the accurate evaluation of OOD robustness. To address these issues, we propose a benchmark construction protocol that ensures clear differentiation and challenging distribution shifts. Then we introduce BOSS, a Benchmark suite for Out-of-distribution robustneSS evaluation covering 5 tasks and 20 datasets. Based on BOSS, we conduct a series of experiments on pre-trained language models for analysis and evaluation of OOD robustness. First, for vanilla fine-tuning, we examine the relationship between in-distribution (ID) and OOD performance. We identify three typical types that unveil the inner learning mechanism, which could potentially facilitate the forecasting of OOD robustness, correlating with the advancements on ID datasets. Then, we evaluate 5 classic methods on BOSS and find that, despite exhibiting some effectiveness in specific cases, they do not offer significant improvement compared to vanilla fine-tuning. Further, we evaluate 5 LLMs with various adaptation paradigms and find that when sufficient ID data is available, fine-tuning domain-specific models outperform LLMs on ID examples significantly. However, in the case of OOD instances, prioritizing LLMs with in-context learning yields better results. We identify that both fine-tuned small models and LLMs face challenges in effectively addressing downstream tasks. The code is public at \url{https://github.com/lifan-yuan/OOD_NLP}.

arxiv情報

著者 Lifan Yuan,Yangyi Chen,Ganqu Cui,Hongcheng Gao,Fangyuan Zou,Xingyi Cheng,Heng Ji,Zhiyuan Liu,Maosong Sun
発行日 2023-06-07 17:47:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク