I am a Strange Dataset: Metalinguistic Tests for Language Models

要約

メタ言語的な自己言及を伴うステートメント (「この論文には 6 つのセクションがあります。」) は多くの分野で蔓延しています。
大規模言語モデル (LLM) はそのような言語を処理できますか?
この論文では、この質問に対処するための新しいデータセットである「I am a Strange Dataset」を紹介します。
生成と検証という 2 つのサブタスクがあります。
生成中、モデルは「この文の最後から 2 番目の単語は」のようなステートメントを継続します (正しい継続は「である」です)。
検証では、モデルは「この文の最後から 2 番目の単語は文です」などの記述の真偽を判断します。
(間違い)。
また、モデルがそもそもメタ言語言語を処理できるかどうかを調査することで、主要なデータセットを補完するために、最小限の異なるメタ言語の非自己参照サンプルも提供します。
データセットは専門家によって手作りされ、専門家以外のアノテーターによって検証されます。
API を介して、さまざまなオープンソース LLM (7B ~ 70B パラメーター) とクローズドソース LLM をテストします。
すべてのモデルは、両方のサブタスクにわたって、さらには非自己参照メタ言語制御データ上でもほぼ偶然に実行されますが、モデルのスケールに応じてある程度の着実な改善が見られます。
GPT 4 は、一貫して偶然よりも大幅に優れた成績を収めている唯一のモデルであり、まだ 60% の範囲にすぎませんが、トレーニングを受けていないヒューマン アノテーターは 89 ~ 93% の範囲で良好なスコアを獲得しています。
データセットと評価ツールキットは、https://github.com/TristanThrush/i-am-a-strange-dataset で入手できます。

要約(オリジナル)

Statements involving metalinguistic self-reference (‘This paper has six sections.’) are prevalent in many domains. Can large language models (LLMs) handle such language? In this paper, we present ‘I am a Strange Dataset’, a new dataset for addressing this question. There are two subtasks: generation and verification. In generation, models continue statements like ‘The penultimate word in this sentence is’ (where a correct continuation is ‘is’). In verification, models judge the truth of statements like ‘The penultimate word in this sentence is sentence.’ (false). We also provide minimally different metalinguistic non-self-reference examples to complement the main dataset by probing for whether models can handle metalinguistic language at all. The dataset is hand-crafted by experts and validated by non-expert annotators. We test a variety of open-source LLMs (7B to 70B parameters) as well as closed-source LLMs through APIs. All models perform close to chance across both subtasks and even on the non-self-referential metalinguistic control data, though we find some steady improvement with model scale. GPT 4 is the only model to consistently do significantly better than chance, and it is still only in the 60% range, while our untrained human annotators score well in the 89-93% range. The dataset and evaluation toolkit are available at https://github.com/TristanThrush/i-am-a-strange-dataset.

arxiv情報

著者 Tristan Thrush,Jared Moore,Miguel Monares,Christopher Potts,Douwe Kiela
発行日 2024-01-10 18:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク