From Form(s) to Meaning: Probing the Semantic Depths of Language Models Using Multisense Consistency

要約

一般的に使用されるさまざまな自然言語理解 (NLU) ベンチマークで測定されるように、大規模言語モデル (LLM) の機能が驚異的なペースで向上していることにより、言語モデルにとっての「理解」が何を意味するのか、またそれとどのように比較するのかについて多くの疑問が生じています。
人間の理解まで。
多くの LLM がテキストのみでトレーニングを受けているため、これは特に当てはまります。そのため、ベンチマークの優れたパフォーマンスは、ベンチマークによって示される問題の真の理解を反映しているのか、それとも LLM が単に誰かの発言と相関するテキスト形式を発話することに優れているだけなのかという疑問が生じます。
問題は理解しています、と言うでしょう。
この哲学的なインスピレーションを受けた作品では、世界理解は同じ意味の、つまりフレーゲの感覚に触発された表現方法全体で一貫しているべきであるという考えを活用した一連のテストによって、形式と意味の間に何らかの分離を生み出すことを目指しています。
具体的には、言い換えだけでなく、言語間での一貫性にも重点を置いています。
GPT-3.5 を研究対象として、5 つの異なる言語とさまざまなタスクにわたる多意味の一貫性を評価します。
制御された設定で評価を開始し、モデルに単純な事実を尋ねてから、4 つの一般的な NLU ベンチマークでの評価を進めます。
モデルの多感覚の一貫性が欠けていることがわかり、いくつかの追跡分析を実行して、この一貫性の欠如が感覚に依存したタスクの理解によるものであることを確認しました。
私たちは、この側面において、LLM の理解は一貫性と人間らしいものにはまだかなり遠いと結論付けており、これが人間の言語と理解についての学習の文脈において LLM の有用性にどのような影響を与えるかについて慎重に検討しています。

要約(オリジナル)

The staggering pace with which the capabilities of large language models (LLMs) are increasing, as measured by a range of commonly used natural language understanding (NLU) benchmarks, raises many questions regarding what ‘understanding’ means for a language model and how it compares to human understanding. This is especially true since many LLMs are exclusively trained on text, casting doubt on whether their stellar benchmark performances are reflective of a true understanding of the problems represented by these benchmarks, or whether LLMs simply excel at uttering textual forms that correlate with what someone who understands the problem would say. In this philosophically inspired work, we aim to create some separation between form and meaning, with a series of tests that leverage the idea that world understanding should be consistent across presentational modes – inspired by Fregean senses – of the same meaning. Specifically, we focus on consistency across languages as well as paraphrases. Taking GPT-3.5 as our object of study, we evaluate multisense consistency across five different languages and various tasks. We start the evaluation in a controlled setting, asking the model for simple facts, and then proceed with an evaluation on four popular NLU benchmarks. We find that the model’s multisense consistency is lacking and run several follow-up analyses to verify that this lack of consistency is due to a sense-dependent task understanding. We conclude that, in this aspect, the understanding of LLMs is still quite far from being consistent and human-like, and deliberate on how this impacts their utility in the context of learning about human language and understanding.

arxiv情報

著者 Xenia Ohmer,Elia Bruni,Dieuwke Hupkes
発行日 2024-04-18 12:48:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク