要約
知識探索では、言語モデル (LM) が事前トレーニング中にリレーショナル知識をどの程度学習できたかを評価します。
プロービングは、さまざまなサイズとトレーニング構成の LM を比較するための安価な方法です。
ただし、以前のアプローチは、事前トレーニング LM で使用される目的関数に依存しているため、マスクされた LM または因果関係のある LM にのみ適用できます。
その結果、異なる種類の LM を比較することができなくなります。
これに対処するために、与えられたテキストステートメントの対数尤度を推定する LM の固有の能力を使用するアプローチを提案します。
私たちは、7,731 個のインスタンス (より大きなバリエーションでは 40,916 個) の評価データセットを慎重に設計し、そこから各関係事実について代替ステートメントを生成し、そのうちの 1 つが正しいものとします。
次に、LM が最も高い対数尤度を正しいステートメントに正しく割り当てるかどうかを評価します。
22 の一般的な LM の実験的評価により、私たちが提案したフレームワークである BEAR が、さまざまな LM タイプにわたる知識を効果的に探索できることがわかりました。
私たちは、LM の評価と開発を促進するために、BEAR データセットとプローブ アプローチを実装するオープンソース フレームワークを研究コミュニティにリリースします。
要約(オリジナル)
Knowledge probing assesses to which degree a language model (LM) has successfully learned relational knowledge during pre-training. Probing is an inexpensive way to compare LMs of different sizes and training configurations. However, previous approaches rely on the objective function used in pre-training LMs and are thus applicable only to masked or causal LMs. As a result, comparing different types of LMs becomes impossible. To address this, we propose an approach that uses an LM’s inherent ability to estimate the log-likelihood of any given textual statement. We carefully design an evaluation dataset of 7,731 instances (40,916 in a larger variant) from which we produce alternative statements for each relational fact, one of which is correct. We then evaluate whether an LM correctly assigns the highest log-likelihood to the correct statement. Our experimental evaluation of 22 common LMs shows that our proposed framework, BEAR, can effectively probe for knowledge across different LM types. We release the BEAR datasets and an open-source framework that implements the probing approach to the research community to facilitate the evaluation and development of LMs.
arxiv情報
著者 | Jacek Wiland,Max Ploner,Alan Akbik |
発行日 | 2024-04-05 14:13:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google