要約
大規模言語モデル (LLM) は科学的タスクにおいて顕著な能力を実証してきましたが、既存の評価フレームワークは主に豊富なコンテキスト入力を使用してそのパフォーマンスを評価し、最小限の情報から新しいアイデアを生み出す能力を見落としています。
単一キーワード プロンプトを使用して LLM の科学的創造性と発散的思考能力を評価する包括的なベンチマークである LiveIdeaBench を紹介します。
ギルフォードの創造性理論に基づいた当社のフレームワークは、最先端の LLM の動的なパネルを採用し、独創性、実現可能性、流暢性、柔軟性という 4 つの主要な側面にわたって生成されたアイデアを評価します。
18 の科学分野にわたる 1,180 のキーワードにわたる 20 の主要なモデルを用いた広範な実験を通じて、科学的創造力が一般的な知能指標とは異なるパターンを示すことを明らかにしました。
特に、私たちの結果は、QwQ-32B-preview のようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、o1-preview のような最上位モデルと同等のクリエイティブなパフォーマンスを達成していることを示しています。
これらの発見は、科学的創造性に対する特殊な評価枠組みの重要性を強調しており、LLMの創造的能力の開発が従来の問題解決能力とは異なる軌道をたどる可能性があることを示唆しています。
要約(オリジナル)
While Large Language Models (LLMs) have demonstrated remarkable capabilities in scientific tasks, existing evaluation frameworks primarily assess their performance using rich contextual inputs, overlooking their ability to generate novel ideas from minimal information. We introduce LiveIdeaBench, a comprehensive benchmark that evaluates LLMs’ scientific creativity and divergent thinking capabilities using single-keyword prompts. Drawing from Guilford’s creativity theory, our framework employs a dynamic panel of state-of-the-art LLMs to assess generated ideas across four key dimensions: originality, feasibility, fluency, and flexibility. Through extensive experimentation with 20 leading models across 1,180 keywords spanning 18 scientific domains, we reveal that scientific creative ability shows distinct patterns from general intelligence metrics. Notably, our results demonstrate that models like QwQ-32B-preview achieve comparable creative performance to top-tier models like o1-preview, despite significant gaps in their general intelligence scores. These findings highlight the importance of specialized evaluation frameworks for scientific creativity and suggest that the development of creative capabilities in LLMs may follow different trajectories than traditional problem-solving abilities.
arxiv情報
著者 | Kai Ruan,Xuan Wang,Jixiang Hong,Hao Sun |
発行日 | 2024-12-23 14:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google