Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization

要約

事前に訓練された言語モデル(LM)は、訓練データとテストデータが同じトピックから得られるIn-Topicセットアップではうまく機能する。しかし、銃規制のような異なるトピックからテストデータが得られるCross-Topicシナリオでは課題に直面する。本研究では、様々なLMを3つのプロービングに基づく実験により分析し、In-TopicとCross-Topicの汎化ギャップの理由を明らかにする。これにより、汎化ギャップと埋め込み空間の頑健性がLMによって大きく異なることを初めて実証した。さらに、より大きなLMを評価し、最近のモデルに対する我々の分析の妥当性を強調する。全体として、多様な事前学習目的、アーキテクチャの正則化、またはデータの重複排除は、よりロバストなLMに寄与し、汎化ギャップを減少させる。我々の研究は、様々な汎化シナリオにおける言語モデルのより深い理解と比較に貢献する。

要約(オリジナル)

Pre-trained language models (LMs) perform well in In-Topic setups, where training and testing data come from the same topics. However, they face challenges in Cross-Topic scenarios where testing data is derived from distinct topics — such as Gun Control. This study analyzes various LMs with three probing-based experiments to shed light on the reasons behind the In- vs. Cross-Topic generalization gap. Thereby, we demonstrate, for the first time, that generalization gaps and the robustness of the embedding space vary significantly across LMs. Additionally, we assess larger LMs and underscore the relevance of our analysis for recent models. Overall, diverse pre-training objectives, architectural regularization, or data deduplication contribute to more robust LMs and diminish generalization gaps. Our research contributes to a deeper understanding and comparison of language models across different generalization scenarios.

arxiv情報

著者 Andreas Waldis,Yufang Hou,Iryna Gurevych
発行日 2024-02-02 12:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク