要約
物語間の類推は、自然言語理解において最も重要な能力の 1 つです。
この論文では、この種のものとしては初めての大規模なストーリーレベルのアナロジーコーパス StoryAnalogy を構築することにより、アナロジーを特定し生成する能力を評価します。StoryAnalogy には、さまざまなドメインからの 24,000 のストーリーペアが含まれており、物語の 2 つの類似点について人による注釈が付けられています。
拡張された構造マッピング理論。
StoryAnalogy に関する一連のテストを設計し、ストーリーレベルの類似性の識別と生成の最初の評価を示します。
興味深いことに、類推識別タスクは、文埋め込みモデルだけでなく、ChatGPT や LLaMa などの最近の大規模言語モデル (LLM) にとっても非常に困難であることがわかりました。ChatGPT は、多肢選択問題で約 30% の精度しか達成できませんでした (
人間の場合 > 85% の精度)。
最後に、StoryAnalogy のデータによって LLM の類似生成品質が向上し、微調整された FlanT5-xxl モデルがゼロショット ChatGPT と同等のパフォーマンスを生み出すことがわかりました。
要約(オリジナル)
Analogy-making between narratives is one of the most critical abilities in natural language understanding. In this paper, we evaluate the ability to identify and generate analogy by building a first-of-its-kind large-scale story-level analogy corpus, StoryAnalogy, which contains 24K story pairs from diverse domains with human annotations on two similarities from the extended Structure-Mapping Theory. We design a set of tests on StoryAnalogy, presenting the first evaluation of story-level analogy identification and generation. Interestingly, we find that the analogy identification tasks are extremely challenging not only for the sentence embedding models but also for the recent large language models (LLMs) such as ChatGPT and LLaMa, where ChatGPT only achieved around 30% accuracy in multiple-choice questions (> 85% accuracy for humans). Finally, we find that data in StoryAnalogy can improve LLMs analogy generation quality, where a fine-tuned FlanT5-xxl model yields comparable performance to zero-shot ChatGPT.
arxiv情報
著者 | Cheng Jiayang,Lin Qiu,Tsz Ho Chan,Tianqing Fang,Weiqi Wang,Chunkit Chan,Dongyu Ru,Qipeng Guo,Hongming Zhang,Yangqiu Song,Yue Zhang,Zheng Zhang |
発行日 | 2023-10-19 16:29:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google