CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models

要約

インテリジェンスの不可欠な要素として、現実世界のシナリオにおける大規模言語モデル (LLM) にとって常識的推論は非常に重要です。
この論文では、中国の LLM の常識推論と常識矛盾検出能力を評価するために、二項対話に手動で注釈が付けられた豊富な常識知識を含むデータセットである CORECODE を提案します。
日常会話における常識知識を、実体、出来事、社会的相互作用の 3 つの側面に分類します。
簡単かつ一貫したアノテーションを実現するために、オープン ドメイン ダイアログでの常識的な知識アノテーションの形式を「ドメイン: スロット = 値」として標準化します。
多様な常識知識を取り込むために、合計 9 つのドメインと 37 のスロットが定義されています。
これらの事前定義されたドメインとスロットを使用して、クラウドソーシングを通じて 19,700 の対話から 76,787 の常識知識の注釈を収集します。
厳選されたデータセット上の LLM の常識推論能力を評価および強化するために、常識知識の充填、常識知識の生成、常識矛盾フレーズの検出、ドメイン識別、スロット識別、イベントなどの一連の対話レベルの推論および検出タスクを確立します。
因果推論。
既存のさまざまなオープンソースの中国語 LLM が、データセット上のこれらのタスクで評価されます。
実験結果は、これらのモデルが CORECODE の豊富な推論内容を予測する能力がないことを示しており、ChatGPT でさえ、ゼロショット設定ではドメイン識別タスクとスロット識別タスクで 0.275 と 0.084 の精度しか達成できませんでした。
日常会話におけるLLMの常識的推論評価と研究を促進するために、CORECODEのデータとコードをhttps://github.com/danshi777/CORECODEで公開しています。

要約(オリジナル)

As an indispensable ingredient of intelligence, commonsense reasoning is crucial for large language models (LLMs) in real-world scenarios. In this paper, we propose CORECODE, a dataset that contains abundant commonsense knowledge manually annotated on dyadic dialogues, to evaluate the commonsense reasoning and commonsense conflict detection capabilities of Chinese LLMs. We categorize commonsense knowledge in everyday conversations into three dimensions: entity, event, and social interaction. For easy and consistent annotation, we standardize the form of commonsense knowledge annotation in open-domain dialogues as ‘domain: slot = value’. A total of 9 domains and 37 slots are defined to capture diverse commonsense knowledge. With these pre-defined domains and slots, we collect 76,787 commonsense knowledge annotations from 19,700 dialogues through crowdsourcing. To evaluate and enhance the commonsense reasoning capability for LLMs on the curated dataset, we establish a series of dialogue-level reasoning and detection tasks, including commonsense knowledge filling, commonsense knowledge generation, commonsense conflict phrase detection, domain identification, slot identification, and event causal inference. A wide variety of existing open-source Chinese LLMs are evaluated with these tasks on our dataset. Experimental results demonstrate that these models are not competent to predict CORECODE’s plentiful reasoning content, and even ChatGPT could only achieve 0.275 and 0.084 accuracy on the domain identification and slot identification tasks under the zero-shot setting. We release the data and codes of CORECODE at https://github.com/danshi777/CORECODE to promote commonsense reasoning evaluation and study of LLMs in the context of daily conversations.

arxiv情報

著者 Dan Shi,Chaobin You,Jiantao Huang,Taihao Li,Deyi Xiong
発行日 2023-12-20 09:06:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク