This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models

要約

大規模言語モデル (LLM) は、明らかに一定レベルの文法知識と一般化を行う能力を獲得していますが、自然言語処理の重要なステップである否定を解釈することができません。
否定を理解する LLM のパフォーマンスが最適ではない理由を明らかにしようとします。
私たちは、コーパスの約 2/3 にさまざまな形式で否定が存在する、真または偽の常識知識に関する約 400,000 の説明文からなる半自動生成された大規模なデータセットを導入します。
私たちは、ゼロショット アプローチで利用可能な最大のオープン LLM を含むデータセットを使用して、一般化と推論の能力を把握しました。また、否定の理解をトレーニングできるかどうかを評価するために一部のモデルを微調整しました。
私たちの調査結果によると、LLMは肯定文の分類には熟練しているものの、否定文には苦労しており、否定については深く理解しておらず、表面的な手がかりに頼っていることが多いことがわかりました。
否定文のモデルを微調整するとパフォーマンスが向上しますが、否定の処理における一般化の欠如は根強く、否定の理解と一般化に関する LLM の継続的な課題が浮き彫りになっています。
データセットとコードは公開されています。

要約(オリジナル)

Although large language models (LLMs) have apparently acquired a certain level of grammatical knowledge and the ability to make generalizations, they fail to interpret negation, a crucial step in Natural Language Processing. We try to clarify the reasons for the sub-optimal performance of LLMs understanding negation. We introduce a large semi-automatically generated dataset of circa 400,000 descriptive sentences about commonsense knowledge that can be true or false in which negation is present in about 2/3 of the corpus in different forms. We have used our dataset with the largest available open LLMs in a zero-shot approach to grasp their generalization and inference capability and we have also fine-tuned some of the models to assess whether the understanding of negation can be trained. Our findings show that, while LLMs are proficient at classifying affirmative sentences, they struggle with negative sentences and lack a deep understanding of negation, often relying on superficial cues. Although fine-tuning the models on negative sentences improves their performance, the lack of generalization in handling negation is persistent, highlighting the ongoing challenges of LLMs regarding negation understanding and generalization. The dataset and code are publicly available.

arxiv情報

著者 Iker García-Ferrero,Begoña Altuna,Javier Álvez,Itziar Gonzalez-Dios,German Rigau
発行日 2023-10-24 15:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク