要約
NLP コミュニティは通常、一般化を評価するために、実施されたテスト セットでのモデルのパフォーマンスに依存しています。
公式テスト セット以外のデータセットで観察されるパフォーマンスの低下は、通常、「分布外」の影響に起因すると考えられます。
ここでは、一般化可能性の基礎を探求し、一般化可能性に影響を与えるさまざまな要因を研究し、臨床研究から得た一般化可能性の教訓を明確に示します。
臨床研究における一般化可能性は、(a) 原因と結果の制御された測定を保証するための実験の内部妥当性、および (b) 外部妥当性または結果のより広い集団への伝達可能性に依存します。
自然言語処理における機械学習モデルを構築する場合、特にデータ内の偽の相関によって結果が影響を受ける可能性がある場合に、内部妥当性を確保する必要性を示します。
関係抽出タスクにおけるエンティティ間の距離などの偽の要因がモデルの内部妥当性にどのように影響し、ひいては一般化に悪影響を及ぼす可能性があるかを示します。
また、汎化の失敗を分析する方法に関するガイダンスも提供します。
要約(オリジナル)
The NLP community typically relies on performance of a model on a held-out test set to assess generalization. Performance drops observed in datasets outside of official test sets are generally attributed to ‘out-of-distribution” effects. Here, we explore the foundations of generalizability and study the various factors that affect it, articulating generalizability lessons from clinical studies. In clinical research generalizability depends on (a) internal validity of experiments to ensure controlled measurement of cause and effect, and (b) external validity or transportability of the results to the wider population. We present the need to ensure internal validity when building machine learning models in natural language processing, especially where results may be impacted by spurious correlations in the data. We demonstrate how spurious factors, such as the distance between entities in relation extraction tasks, can affect model internal validity and in turn adversely impact generalization. We also offer guidance on how to analyze generalization failures.
arxiv情報
著者 | Aparna Elangovan,Jiayuan He,Yuan Li,Karin Verspoor |
発行日 | 2023-11-09 15:09:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google