要約
最近、Transformer アーキテクチャ、特に大規模言語モデル (LLM) で示される不思議な In-Context Learning (ICL) 能力が、大きな研究の関心を呼び起こしています。
ただし、トレーニング コーパスとプロンプト デモンストレーションの両方でよく見られる、ノイズの多いサンプルの存在下での Transformers のコンテキスト内学習機能の復元力は、依然として十分に解明されていません。
この論文では、単純な関数クラスを使用して ICL の能力を研究する先行研究に触発され、ノイズの多いラベルに対するトランスフォーマーの堅牢性を調査することで、この問題を詳しく調べます。
具体的には、まず、コンテキスト内学習中のノイズの多いラベルに対する Transformer の堅牢性の徹底的な評価と分析を実行し、デモンストレーション ラベルのさまざまな種類のノイズに対して顕著な回復力を示すことを示します。
さらに、データ拡張の一種と同様に、トレーニング セットにノイズを導入することで推論中の堅牢性が向上するかどうかを調査することで、この問題をさらに深く掘り下げ、そのようなノイズが実際に ICL の堅牢性を向上させる可能性があることを発見しました。
全体として、私たちの有益な分析と発見は、ICL 中のラベル ノイズに対する Transformer モデルの回復力を包括的に理解し、自然言語処理における Transformer の研究に貴重な洞察を提供します。
私たちのコードは https://github.com/InezYu0928/in-context-learning で入手できます。
要約(オリジナル)
Recently, the mysterious In-Context Learning (ICL) ability exhibited by Transformer architectures, especially in large language models (LLMs), has sparked significant research interest. However, the resilience of Transformers’ in-context learning capabilities in the presence of noisy samples, prevalent in both training corpora and prompt demonstrations, remains underexplored. In this paper, inspired by prior research that studies ICL ability using simple function classes, we take a closer look at this problem by investigating the robustness of Transformers against noisy labels. Specifically, we first conduct a thorough evaluation and analysis of the robustness of Transformers against noisy labels during in-context learning and show that they exhibit notable resilience against diverse types of noise in demonstration labels. Furthermore, we delve deeper into this problem by exploring whether introducing noise into the training set, akin to a form of data augmentation, enhances such robustness during inference, and find that such noise can indeed improve the robustness of ICL. Overall, our fruitful analysis and findings provide a comprehensive understanding of the resilience of Transformer models against label noises during ICL and provide valuable insights into the research on Transformers in natural language processing. Our code is available at https://github.com/InezYu0928/in-context-learning.
arxiv情報
著者 | Chen Cheng,Xinzhi Yu,Haodong Wen,Jingsong Sun,Guanzhang Yue,Yihao Zhang,Zeming Wei |
発行日 | 2024-05-01 09:15:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google