‘Is ChatGPT a Better Explainer than My Professor?’: Evaluating the Explanation Capabilities of LLMs in Conversation Compared to a Human Baseline

要約

説明は知識共有の基礎を形成し、コミュニケーション原則、社会力学、学習理論に基づいて構築されます。
コンテキストは高度に適応性があり、インタラクティブであるため、私たちは説明のための会話的アプローチに特に焦点を当てています。
私たちの研究は、説明行為に関するこれまでの研究を活用しています。これは、説明者と被説明者が会話の中で、相手を説明し、理解し、対話するために採用するさまざまな戦略を理解するためのフレームワークです。
Wachsmuth らによって WIRED YouTube シリーズから構築され、その後 Booshehri らによって注釈が付けられた 5 レベル データセットを使用します。
説明行為付き。
これらの注釈は、説明者と被説明者が応答を作成するときにどのように応答を構成するかを理解するためのフレームワークを提供します。
過去 1 年間の生成 AI の台頭により、大規模言語モデル (LLM) の機能と、LLM が会話環境における専門説明者の能力をどのように強化できるかをより深く理解できるようになることを期待しています。
この目標を達成するために、5 レベル データセット (説明行為を含む Booshehri et al. の 2023 アノテーション付きデータセットを使用します) を使用すると、LLM が説明対話に参加する能力を監査できます。
説明者の応答を生成する際の LLM の有効性を評価するために、3 つの異なる戦略を比較し、人間のアノテーターに 3 つの異なる戦略 (人間の説明者の応答、GPT4 標準応答、説明ムーブを使用した GPT4 応答) を評価するよう依頼しました。

要約(オリジナル)

Explanations form the foundation of knowledge sharing and build upon communication principles, social dynamics, and learning theories. We focus specifically on conversational approaches for explanations because the context is highly adaptive and interactive. Our research leverages previous work on explanatory acts, a framework for understanding the different strategies that explainers and explainees employ in a conversation to both explain, understand, and engage with the other party. We use the 5-Levels dataset was constructed from the WIRED YouTube series by Wachsmuth et al., and later annotated by Booshehri et al. with explanatory acts. These annotations provide a framework for understanding how explainers and explainees structure their response when crafting a response. With the rise of generative AI in the past year, we hope to better understand the capabilities of Large Language Models (LLMs) and how they can augment expert explainer’s capabilities in conversational settings. To achieve this goal, the 5-Levels dataset (We use Booshehri et al.’s 2023 annotated dataset with explanatory acts.) allows us to audit the ability of LLMs in engaging in explanation dialogues. To evaluate the effectiveness of LLMs in generating explainer responses, we compared 3 different strategies, we asked human annotators to evaluate 3 different strategies: human explainer response, GPT4 standard response, GPT4 response with Explanation Moves.

arxiv情報

著者 Grace Li,Milad Alshomary,Smaranda Muresan
発行日 2024-06-26 17:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク