Do Large Language Models Understand Conversational Implicature — A case study with a chinese sitcom

要約

大規模言語モデル (LLM) が人間のようなソーシャル コミュニケーターになるためには、発話の文字通り以外の意味を理解することが重要です。
この研究では、中国のホームコメディ $\textit{My Own Swordsman}$ の会話をソースとする、会話の含意を目的とした中国初のマルチターン会話ベースのデータセットである SwordsmanImp を紹介します。
これには、注意深く手作りされた 200 の質問が含まれており、すべてにグリセの格言が違反されている点について注釈が付けられています。
私たちは、多肢選択式の質問タスクと含意説明タスクという 2 つのタスクの下で、8 つのクローズソースおよびオープンソース LLM をテストします。
私たちの結果は、GPT-4 が多肢選択問題に関して人間レベルの精度 (94%) を達成していることを示しています。
CausalLM は、GPT-4 に従って 78.5% の精度を示します。
GPT-3.5 やいくつかのオープンソース モデルを含む他のモデルは、多肢選択問題で 20% から 60% の範囲で精度が低くなります。
人間の評価者は、LLM によって生成された含意の説明を、その合理性、論理性、および流暢さに関して評価するように求められました。
すべてのモデルはほぼ流暢で一貫性のあるテキストを生成しますが、GPT-4 を除いて説明の合理性のスコアは低く、ほとんどの LLM が会話内の含意について満足のいく説明を生成できないことを示唆しています。
さらに、LLM のパフォーマンスはグリセの格率によって大きく変化しないことがわかり、LLM が異なる格率から導出された含意を異なる方法で処理しているようには見えないことを示唆しています。
データとコードは https://github.com/sjtu-compling/llm-pragmatics で入手できます。

要約(オリジナル)

Understanding the non-literal meaning of an utterance is critical for large language models (LLMs) to become human-like social communicators. In this work, we introduce SwordsmanImp, the first Chinese multi-turn-dialogue-based dataset aimed at conversational implicature, sourced from dialogues in the Chinese sitcom $\textit{My Own Swordsman}$. It includes 200 carefully handcrafted questions, all annotated on which Gricean maxims have been violated. We test eight close-source and open-source LLMs under two tasks: a multiple-choice question task and an implicature explanation task. Our results show that GPT-4 attains human-level accuracy (94%) on multiple-choice questions. CausalLM demonstrates a 78.5% accuracy following GPT-4. Other models, including GPT-3.5 and several open-source models, demonstrate a lower accuracy ranging from 20% to 60% on multiple-choice questions. Human raters were asked to rate the explanation of the implicatures generated by LLMs on their reasonability, logic and fluency. While all models generate largely fluent and self-consistent text, their explanations score low on reasonability except for GPT-4, suggesting that most LLMs cannot produce satisfactory explanations of the implicatures in the conversation. Moreover, we find LLMs’ performance does not vary significantly by Gricean maxims, suggesting that LLMs do not seem to process implicatures derived from different maxims differently. Our data and code are available at https://github.com/sjtu-compling/llm-pragmatics.

arxiv情報

著者 Shisen Yue,Siyuan Song,Xinyuan Cheng,Hai Hu
発行日 2024-07-31 17:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, J.5 パーマリンク