GPT-4 Surpassing Human Performance in Linguistic Pragmatics

要約

大規模言語モデル (LLM) が日常生活にますます統合されるにつれて、人間の認知を理解し、エミュレートするその能力が着実に検討されています。
この研究は、文脈と暗黙の意味を考慮するコミュニケーションの側面である言語語用論を理解し、解釈するLLMの能力を調査します。
グライスのコミュニケーション原則を使用して、LLM と人間の被験者 (N=76) が、さまざまな対話ベースのタスクに対する反応に基づいて評価されました。
この発見により、語用論の解釈において、LLM、特に GPT4 のパフォーマンスと速度が人間の被験者よりも優れていることが明らかになりました。
GPT4 は人間が書いたサンプルの事前テストでも正確さを実証し、テキスト分析における可能性を示しました。
人間の個人スコアと平均スコアを使用した LLM の比較分析では、モデルは大幅な時間的改善を示しました。
モデルはスコアの低い順にランク付けされ、GPT2 が 78 位、GPT3 が 23 位、Bard が 10 位、GPT3.5 が 5 位、Best Human スコアが 2 位、GPT4 がトップの座を獲得しました。
この調査結果は、これらの LLM の開発とパフォーマンスにおいて目覚ましい進歩があったことを浮き彫りにしています。
今後の研究では、LLM の能力を完全に理解するために、多様な主題、複数の言語、その他の認知的側面を考慮する必要があります。
この研究は、コミュニケーション中心の分野における AI ベースのモデルの開発と応用に重要な意味を持っています。

要約(オリジナル)

As Large Language Models (LLMs) become increasingly integrated into everyday life, their capabilities to understand and emulate human cognition are under steady examination. This study investigates the ability of LLMs to comprehend and interpret linguistic pragmatics, an aspect of communication that considers context and implied meanings. Using Grice’s communication principles, LLMs and human subjects (N=76) were evaluated based on their responses to various dialogue-based tasks. The findings revealed the superior performance and speed of LLMs, particularly GPT4, over human subjects in interpreting pragmatics. GPT4 also demonstrated accuracy in the pre-testing of human-written samples, indicating its potential in text analysis. In a comparative analysis of LLMs using human individual and average scores, the models exhibited significant chronological improvement. The models were ranked from lowest to highest score, with GPT2 positioned at 78th place, GPT3 ranking at 23rd, Bard at 10th, GPT3.5 placing 5th, Best Human scoring 2nd, and GPT4 achieving the top spot. The findings highlight the remarkable progress made in the development and performance of these LLMs. Future studies should consider diverse subjects, multiple languages, and other cognitive aspects to fully comprehend the capabilities of LLMs. This research holds significant implications for the development and application of AI-based models in communication-centered sectors.

arxiv情報

著者 Ljubisa Bojic,Predrag Kovacevic,Milan Cabarkapa
発行日 2023-12-15 05:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク