Are Frontier Large Language Models Suitable for Q&A in Science Centres?

要約

この論文では、事実の正確さを維持しながら訪問者のエンゲージメントを高めることを目的として、科学センターでの Q&A 対話に対するフロンティア大規模言語モデル (LLM) の適合性を調査します。
レスター (英国) の国立宇宙センターから収集した質問のデータセットを使用して、OpenAI の GPT-4、Claude 3.5 Sonnet、Google Gemini 1.5 という 3 つの主要なモデルによって生成された回答を評価しました。
各モデルは、8 歳の視聴者に合わせた標準的な応答と創造的な応答の両方を求められ、これらの応答は、正確さ、興味深さ、明確さ、新規性、および予想される応答からの逸脱に基づいて宇宙科学の専門家によって評価されました。
その結果、創造性と正確さの間にはトレードオフがあることが明らかになり、より創造的な応答を求めるように求められた場合でも、クロードは明確さを維持し、若い聴衆を引き付けるという点で GPT とジェミニを上回っていました。
それにもかかわらず、専門家は、一般に、新規性が高いほど、すべてのモデルにわたって事実の信頼性が低下することに関連していると観察しました。
この研究は、教育現場における LLM の可能性に焦点を当てており、関与と科学的厳密性のバランスをとるための注意深く迅速なエンジニアリングの必要性を強調しています。

要約(オリジナル)

This paper investigates the suitability of frontier Large Language Models (LLMs) for Q&A interactions in science centres, with the aim of boosting visitor engagement while maintaining factual accuracy. Using a dataset of questions collected from the National Space Centre in Leicester (UK), we evaluated responses generated by three leading models: OpenAI’s GPT-4, Claude 3.5 Sonnet, and Google Gemini 1.5. Each model was prompted for both standard and creative responses tailored to an 8-year-old audience, and these responses were assessed by space science experts based on accuracy, engagement, clarity, novelty, and deviation from expected answers. The results revealed a trade-off between creativity and accuracy, with Claude outperforming GPT and Gemini in both maintaining clarity and engaging young audiences, even when asked to generate more creative responses. Nonetheless, experts observed that higher novelty was generally associated with reduced factual reliability across all models. This study highlights the potential of LLMs in educational settings, emphasizing the need for careful prompt engineering to balance engagement with scientific rigor.

arxiv情報

著者 Jacob Watson,Fabrício Góes,Marco Volpe,Talles Medeiros
発行日 2024-12-06 17:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク