Evaluating the Robustness to Instructions of Large Language Models

要約

最近、命令の微調整は、新しいタスクに対する大規模言語モデル (LLM) のゼロショット機能を強化する潜在的な方法として注目を集めています。
この手法は、中程度のサイズの LLM のパフォーマンスを向上させる優れた能力を示しており、場合によっては、はるかに大きなモデルのバリアントと同等のパフォーマンス レベルに達することもあります。
焦点は、目に見えるタスクと目に見えないタスクに対する命令調整された LLM の堅牢性にあります。
実世界の関係抽出データセットをケーススタディとして使用して、Alpaca、Vicuna、WizardLM、および従来のタスク指向モデル (Flan-T5-XL/XXL、T0++) を含む 6 つのモデルの調査を実施しました。
私たちは、オープンドメイン命令とタスク指向命令に基づいて調整されたこれらの命令追従 LLM の包括的な評価を実行しました。
主な議論は、そのパフォーマンスと命令に対する堅牢性です。
ほとんどの場合、不慣れな命令を処理するモデルのパフォーマンスは大幅に悪化する傾向があり、RE 命令に対するモデルのロバスト性は QA に比べて低下することが観察されています。
さらに、特定のパラメーター サイズのしきい値 (3B) までは、パラメーター数が増加するにつれて FLAN-T5 モデルのパフォーマンスが向上することがわかりました。
さまざまなスケールの FLAN-T5 モデルの RE 命令に対する堅牢性は、QA 命令に対する堅牢性よりも劣ります。

要約(オリジナル)

Recently, Instruction fine-tuning has risen to prominence as a potential method for enhancing the zero-shot capabilities of Large Language Models (LLMs) on novel tasks. This technique has shown an exceptional ability to boost the performance of moderately sized LLMs, sometimes even reaching performance levels comparable to those of much larger model variants. The focus is on the robustness of instruction-tuned LLMs to seen and unseen tasks. We conducted an exploration of six models including Alpaca, Vicuna, WizardLM, and Traditional Task-oriented Models(Flan-T5-XL/XXL, T0++) using real-world relation extraction datasets as case studies. We carried out a comprehensive evaluation of these instruction-following LLMs which have been tuned based on open-domain instructions and task-oriented instructions. The main discussion is their performance and robustness towards instructions. We have observed that in most cases, the model’s performance in dealing with unfamiliar instructions tends to worsen significantly, and the robustness of the model for RE instructions deteriorates compared to QA. Further, we discovered that up until a certain parameter size threshold (3B), the performance of the FLAN-T5 model improves as the parameter count increases. The robustness of different scales of FLAN-T5 models to RE instruction is worse than the robustness to QA instruction.

arxiv情報

著者 Yuansheng Ni,Sichao Jiang,Xinyu wu,Hui Shen,Yuli Zhou
発行日 2023-11-27 17:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク