ChatGPT Evaluation on Sentence Level Relations: A Focus on Temporal, Causal, and Discourse Relations

要約

この論文は、時間的関係、因果関係、談話関係などの文間の関係に関する対話型大規模言語モデルである ChatGPT のパフォーマンスを定量的に評価することを目的としています。
さまざまなタスクにわたる ChatGPT の有望なパフォーマンスを考慮して、時間的関係と因果関係、PDTB2.0 ベース、対話ベースの談話関係を含む 11 個のデータセットのテストセット全体に対して徹底的な評価を実行します。
調査結果の信頼性を確保するために、ゼロショット プロンプト テンプレート、ゼロショット プロンプト エンジニアリング (PE) テンプレート、およびインコンテキスト学習 (ICL) プロンプト テンプレートを含む、各タスクに合わせた 3 つのプロンプト テンプレートを採用しています。
すべての一般的な文ペア関係分類タスクの初期ベースライン スコアを初めて取得します。
私たちの研究を通じて、ChatGPT は 2 つのイベント間の時間的順序を特定する点で同レベルの専門知識を備えていないにもかかわらず、因果関係の検出と推論において並外れた能力を示していることがわかりました。
既存の明示的な談話接続詞を使用して談話関係の大部分を識別することはできますが、暗黙的な談話関係は依然として手強い課題です。
同時に、ChatGPT は、談話関係を認識する前に対話の構造を理解する必要がある対話談話解析タスクにおいて、標準以下のパフォーマンスを示しています。

要約(オリジナル)

This paper aims to quantitatively evaluate the performance of ChatGPT, an interactive large language model, on inter-sentential relations such as temporal relations, causal relations, and discourse relations. Given ChatGPT’s promising performance across various tasks, we proceed to carry out thorough evaluations on the whole test sets of 11 datasets, including temporal and causal relations, PDTB2.0-based, and dialogue-based discourse relations. To ensure the reliability of our findings, we employ three tailored prompt templates for each task, including the zero-shot prompt template, zero-shot prompt engineering (PE) template, and in-context learning (ICL) prompt template, to establish the initial baseline scores for all popular sentence-pair relation classification tasks for the first time. Through our study, we discover that ChatGPT exhibits exceptional proficiency in detecting and reasoning about causal relations, albeit it may not possess the same level of expertise in identifying the temporal order between two events. While it is capable of identifying the majority of discourse relations with existing explicit discourse connectives, the implicit discourse relation remains a formidable challenge. Concurrently, ChatGPT demonstrates subpar performance in the dialogue discourse parsing task that requires structural understanding in a dialogue before being aware of the discourse relation.

arxiv情報

著者 Chunkit Chan,Jiayang Cheng,Weiqi Wang,Yuxin Jiang,Tianqing Fang,Xin Liu,Yangqiu Song
発行日 2024-01-26 10:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク