要約
クローズドソースの大規模な言語モデル(LLM)はますます人気が高まっており、幅広い自然言語のタスクにわたって印象的なパフォーマンスがあります。
これらのモデルは、パフォーマンスをさらに向上させるために微調整できますが、これにより、分散分布(OOD)データに対する堅牢性を低下させるデータセット固有のヒューリスティックからモデルが学習することがよくあります。
堅牢性を改善するための既存の方法は、モデルの内部へのアクセスやモデルのトレーニング手順を変更する能力を想定しているため、パフォーマンスが低下するか、閉鎖モデルに適用できません。
この作業では、モデルの内部へのアクセスを必要としないデータ中心の方法を介して、クローズドソースLLMの堅牢性を改善するための戦略を調査します。
最適な戦略は、OODデータの複雑さに依存することがわかります。
非常に複雑なOODデータセットの場合、より挑戦的なトレーニングの例をアップサンプリングすると、堅牢性が最大1.5%向上する可能性があります。
あまり複雑ではないOODデータセットの場合、トレーニングセットの一部をLLMで生成した例に置き換えると、堅牢性が3.7%向上する可能性があります。
より広く言うと、大規模なクローズドソースのオートルーリングLLMは、一般的に使用されるエンコーダーモデルよりも実質的に堅牢であり、今後のベースラインのより適切な選択であることがわかります。
要約(オリジナル)
Closed-source Large Language Models (LLMs) have become increasingly popular, with impressive performance across a wide range of natural language tasks. These models can be fine-tuned to further improve performance, but this often results in the models learning from dataset-specific heuristics that reduce their robustness on out-of-distribution (OOD) data. Existing methods to improve robustness either perform poorly, or are non-applicable to closed-source models because they assume access to model internals, or the ability to change the model’s training procedure. In this work, we investigate strategies to improve the robustness of closed-source LLMs through data-centric methods that do not require access to model internals. We find that the optimal strategy depends on the complexity of the OOD data. For highly complex OOD datasets, upsampling more challenging training examples can improve robustness by up to 1.5%. For less complex OOD datasets, replacing a portion of the training set with LLM-generated examples can improve robustness by 3.7%. More broadly, we find that large-scale closed-source autoregressive LLMs are substantially more robust than commonly used encoder models, and are a more appropriate choice of baseline going forward.
arxiv情報
著者 | Joe Stacey,Lisa Alazraki,Aran Ubhi,Beyza Ermis,Aaron Mueller,Marek Rei |
発行日 | 2025-05-26 16:49:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google