要約
ChatGPT のような大規模言語モデル (LLM) は、インテリジェントな対話や自律エージェントを含む、さまざまな自然言語理解 (NLU) タスクにわたって大幅な進歩を示しています。
しかし、広く認められたテストメカニズムがないため、「LLM が確率論的なオウムなのか、それとも本当に世界を理解しているのか」という答えは依然として不明瞭であり、数多くの研究が促進され、激しい議論が巻き起こっています。
現在普及している研究は主に表面レベルの NLU に焦点を当てており、きめの細かい探索は無視されています。
ただし、そのような探索は、LLM の独特の理解メカニズムを理解し、人間の認知と一致し、最終的に LLM の一般的な NLU 能力を強化するために重要です。
このギャップに対処するために、私たちの研究では、LLM の微妙な意味理解能力、特に一般的ではない意味を持つ一般的な単語について掘り下げています。
このアイデアは、心理学における人間のコミュニケーションの基本原則に由来しており、単語の意味論についての正確な共通理解を強調しています。
具体的には、この論文では、新しい評価指標を備えた語彙意味理解 (LeSC) データセットの革新的な構築を紹介します。これは、きめ細かい次元と言語横断的な次元の両方を網羅する最初のベンチマークです。
オープンソースとクローズドソースのさまざまなスケールとアーキテクチャのモデルを導入し、広範な実証実験により、この基本的な語彙意味理解タスクにおいて既存のモデルのパフォーマンスが劣ることが実証されました。
注目すべきことに、最先端のLLMであるGPT-4とGPT-3.5でさえ、16歳の人間に比べてそれぞれ3.9%と22.3%遅れています。
さらに、この問題を軽減するために、複数の高度なプロンプト技術と検索拡張生成も導入されていますが、制限は依然として残ります。
この研究は、上記の重大な欠点を強調することで、さらなる調査の動機となり、よりインテリジェントな LLM を開発するための新しい洞察を提供します。
要約(オリジナル)
Large language models (LLMs) like ChatGPT have shown significant advancements across diverse natural language understanding (NLU) tasks, including intelligent dialogue and autonomous agents. Yet, lacking widely acknowledged testing mechanisms, answering `whether LLMs are stochastic parrots or genuinely comprehend the world’ remains unclear, fostering numerous studies and sparking heated debates. Prevailing research mainly focuses on surface-level NLU, neglecting fine-grained explorations. However, such explorations are crucial for understanding their unique comprehension mechanisms, aligning with human cognition, and finally enhancing LLMs’ general NLU capacities. To address this gap, our study delves into LLMs’ nuanced semantic comprehension capabilities, particularly regarding common words with uncommon meanings. The idea stems from foundational principles of human communication within psychology, which underscore accurate shared understandings of word semantics. Specifically, this paper presents the innovative construction of a Lexical Semantic Comprehension (LeSC) dataset with novel evaluation metrics, the first benchmark encompassing both fine-grained and cross-lingual dimensions. Introducing models of both open-source and closed-source, varied scales and architectures, our extensive empirical experiments demonstrate the inferior performance of existing models in this basic lexical-meaning understanding task. Notably, even the state-of-the-art LLMs GPT-4 and GPT-3.5 lag behind 16-year-old humans by 3.9% and 22.3%, respectively. Additionally, multiple advanced prompting techniques and retrieval-augmented generation are also introduced to help alleviate this trouble, yet limitations persist. By highlighting the above critical shortcomings, this research motivates further investigation and offers novel insights for developing more intelligent LLMs.
arxiv情報
著者 | Jinyang Wu,Feihu Che,Xinxin Zheng,Shuai Zhang,Ruihan Jin,Shuai Nie,Pengpeng Shao,Jianhua Tao |
発行日 | 2024-05-09 12:58:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google