Perturbed examples reveal invariances shared by language models

要約

言語に関する研究が爆発的に増加しているため、利用可能な自然言語処理モデルの数は増え続けていますが、新しいモデルとよく理解されているモデルとを比較する方法についてはほとんど理解されていません。
この問題の主な理由の 1 つは、ベンチマーク データセットが飽和状態になっていることであり、実際のモデルのパフォーマンスの違いが十分に反映されていない可能性があります。
この研究では、特定の言語能力 (同義語不変性、タイプ不変性など) をターゲットとするように設計された解釈可能な入力摂動に対するそれらの共有不変性を明らかにすることにより、2 つの自然言語処理モデルを比較するための新しいフレームワークを提案します。
このフレームワークは、同じアーキテクチャ ファミリ内および異なるアーキテクチャ ファミリにまたがるモデルの実験を通じて、モデルの変更 (蒸留、サイズの増加、事前トレーニングの量など) が複数の明確に定義された言語能力にどのように影響するかについて多くの洞察を提供します。
さらに、私たちのフレームワークが、商用ブラックボックス API として利用可能なモデル (InstructGPT ファミリなど) と比較的よく理解されているモデル (GPT-2 など) の間で共有される不変性の評価をどのように可能にするのかも示します。
いくつかの実験を通じて、大規模な言語モデルはさまざまなサイズのモデルによってエンコードされた不変性の多くを共有するのに対し、大規模な言語モデルによってエンコードされた不変性は他の大規模なモデルによってのみ共有されることが観察されました。
多種多様な不変性を保持することが、大規模言語モデルの最近の成功の主な理由である可能性があり、私たちのフレームワークは、新しいモデルに保持されている、または新しいモデルで出現する不変性の種類を明らかにすることができます。

要約(オリジナル)

An explosion of work in language is leading to ever-increasing numbers of available natural language processing models, with little understanding of how new models compare to better-understood models. One major reason for this difficulty is saturating benchmark datasets, which may not reflect well differences in model performance in the wild. In this work, we propose a novel framework for comparing two natural language processing models by revealing their shared invariance to interpretable input perturbations that are designed to target a specific linguistic capability (e.g., Synonym-Invariance, Typo-Invariance). Via experiments on models from within the same and across different architecture families, this framework offers a number of insights about how changes in models (e.g., distillation, increase in size, amount of pre-training) affect multiple well-defined linguistic capabilities. Furthermore, we also demonstrate how our framework can enable evaluation of the invariances shared between models that are available as commercial black-box APIs (e.g., InstructGPT family) and models that are relatively better understood (e.g., GPT-2). Across several experiments, we observe that large language models share many of the invariances encoded by models of various sizes, whereas the invariances encoded by large language models are only shared by other large models. Possessing a wide variety of invariances may be a key reason for the recent successes of large language models, and our framework can shed light on the types of invariances that are retained by or emerge in new models.

arxiv情報

著者 Ruchit Rawal,Mariya Toneva
発行日 2023-11-07 17:48:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク