要約
タイトル:CKBP v2:共通感覚知識ベースポピュレーションの専門家注釈評価セット
要約:
– NLPにおいて、共通感覚知識ベース(CSKB)をポピュレートすることは、未知のイベントやエンティティを持つ外部情報源からの知識を扱うため、重要であるが難しい課題である。
– 以前にFang et al.(2021a)は、評価セットであるCKBP v1を用いたCSKBポピュレーションのベンチマークを提案した。しかし、CKBP v1は誤解答が多く含まれるクラウドソーシングの注釈を採用しており、評価セットはランダムサンプリングの結果、外部の知識源とよく整合していない。
– この論文では、専門家の注釈を使用し、評価セットをより代表的にするために多様な敵対的サンプルを追加することにより、2つの問題を解決する、新しい高品質なCSKBポピュレーションのベンチマークであるCKBP v2を紹介する。
– 次の研究比較のために、新しい評価セット上でCSKBポピュレーションの最新の手法を比較する包括的な実験を行った。実験の結果、ChatGPTなどの大規模言語モデル(LLM)でもポピュレーションのタスクは依然として課題であることが示された。
– コードとデータはhttps://github.com/HKUST-KnowComp/CSKB-Populationで利用可能である。
要約(オリジナル)
Populating Commonsense Knowledge Bases (CSKB) is an important yet hard task in NLP, as it tackles knowledge from external sources with unseen events and entities. Fang et al. (2021a) proposed a CSKB Population benchmark with an evaluation set CKBP v1. However, CKBP v1 adopts crowdsourced annotations that suffer from a substantial fraction of incorrect answers, and the evaluation set is not well-aligned with the external knowledge source as a result of random sampling. In this paper, we introduce CKBP v2, a new high-quality CSKB Population benchmark, which addresses the two mentioned problems by using experts instead of crowd-sourced annotation and by adding diversified adversarial samples to make the evaluation set more representative. We conduct extensive experiments comparing state-of-the-art methods for CSKB Population on the new evaluation set for future research comparisons. Empirical results show that the population task is still challenging, even for large language models (LLM) such as ChatGPT. Codes and data are available at https://github.com/HKUST-KnowComp/CSKB-Population.
arxiv情報
著者 | Tianqing Fang,Quyet V. Do,Sehyun Choi,Weiqi Wang,Yangqiu Song |
発行日 | 2023-04-20 15:27:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI