Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons

要約

この論文では、私たちは 2 つの観点から理解できる貢献を行っています。NLP の観点からは、トークンの区別のみに基づいてモデルが含意を識別する可能性を最小限に抑える、語彙の重複が大きい​​ NLI 用の小さなチャレンジ データセットを導入し、次のことを示します。
GPT-4 と Llama 2 は強いバイアスにより失敗します。
次に、この失敗を説明するために、さらに困難なサブタスクを作成します。
計算言語学の観点から、表面の特徴では区別できない 3 つのクラスの形容詞を持つ構造のグループを特定します。
これにより、LLM によるこれらの構文の理解についてさまざまな方法で調査できるようになり、さまざまな方法で LLM がそれらを区別できないことがわかり、意味を適切に表現していない、または句頭の語彙特性を捉えていないことが示唆されています。

要約(オリジナル)

In this paper, we make a contribution that can be understood from two perspectives: from an NLP perspective, we introduce a small challenge dataset for NLI with large lexical overlap, which minimises the possibility of models discerning entailment solely based on token distinctions, and show that GPT-4 and Llama 2 fail it with strong bias. We then create further challenging sub-tasks in an effort to explain this failure. From a Computational Linguistics perspective, we identify a group of constructions with three classes of adjectives which cannot be distinguished by surface features. This enables us to probe for LLM’s understanding of these constructions in various ways, and we find that they fail in a variety of ways to distinguish between them, suggesting that they don’t adequately represent their meaning or capture the lexical properties of phrasal heads.

arxiv情報

著者 Shijia Zhou,Leonie Weissweiler,Taiqi He,Hinrich Schütze,David R. Mortensen,Lori Levin
発行日 2024-03-26 14:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク