EvEval: A Comprehensive Evaluation of Event Semantics for Large Language Models

要約

イベントは、さまざまなコンテキスト内で発生の基本単位として機能します。
テキスト情報のイベント セマンティクスの処理は、多数の自然言語処理 (NLP) アプリケーションの基礎を形成します。
最近の研究では、イベントのセマンティック処理に対処するために大規模言語モデル (LLM) を活用し始めています。
ただし、LLM がこれらの課題に効果的に対処できる範囲は依然として不透明です。
さらに、イベントのセマンティック処理のための包括的な評価フレームワークが欠如しているため、これらの機能を評価する際に大きな課題が生じています。
この論文では、理解、推論、予測とその詳細な側面を含む、イベントの意味論的処理のための包括的なフレームワークを提案します。
モデルのイベント意味処理能力を包括的に評価するために、EVEVAL と呼ばれる新しいベンチマークを導入します。
イベントのセマンティック処理のあらゆる側面をカバーする 8 つのデータセットを収集します。
EVEVAL では広範な実験が行われ、得られた結果に基づいていくつかの注目すべき発見が得られました。

要約(オリジナル)

Events serve as fundamental units of occurrence within various contexts. The processing of event semantics in textual information forms the basis of numerous natural language processing (NLP) applications. Recent studies have begun leveraging large language models (LLMs) to address event semantic processing. However, the extent that LLMs can effectively tackle these challenges remains uncertain. Furthermore, the lack of a comprehensive evaluation framework for event semantic processing poses a significant challenge in evaluating these capabilities. In this paper, we propose an overarching framework for event semantic processing, encompassing understanding, reasoning, and prediction, along with their fine-grained aspects. To comprehensively evaluate the event semantic processing abilities of models, we introduce a novel benchmark called EVEVAL. We collect 8 datasets that cover all aspects of event semantic processing. Extensive experiments are conducted on EVEVAL, leading to several noteworthy findings based on the obtained results.

arxiv情報

著者 Zhengwei Tao,Zhi Jin,Xiaoying Bai,Haiyan Zhao,Yanlin Feng,Jia Li,Wenpeng Hu
発行日 2023-05-24 15:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク