要約
科学と工学における創造性評価は、人間とAIの両方の判断にますます基づいていますが、これらの評価の背後にある認知プロセスとバイアスはまだよく理解されていません。
評価を持つソリューションのサンプルを含む方法を含める方法を調べる2つの実験を実施しました。これは、評価者がオリジナリティスコアを説明し、遠隔のファセットの評価を説明することを担当する微細に融合した注釈プロトコルを使用して(日常のアイデアから「遠い」かどうか)、commonness
(応答がまれかどうか)、賢さ。
研究1では、正式な科学またはエンジニアリングトレーニングを受けた72人の専門家からの創造性評価を分析し、評価を受けたソリューションを受けた人(例)を受けた人を比較しなかった人と比較しました(例なし)。
計算テキスト分析により、例を持つ専門家と比較して、例のない専門家はより多くの比較言語(「より良い/悪い」)を使用し、ソリューションの珍しいものを強調し、比較のためにメモリの検索にもっと依存している可能性があることが明らかになりました。
研究2では、最先端のLLMSを使用した並行分析により、モデルは独創性を評価するときにアイデアの不明確性と遠隔性に優先され、アイデアの意味的な類似性に根ざした評価プロセスを示唆していることが明らかになりました。
例の条件では、真の独創性スコアを予測するLLM精度が改善されましたが、リモート性、まれ、および独創性との賢さの相関も大幅に増加しました – 0.99以上 – 個々のファセットのLLMS評価の均質化を示唆しています。
これらの発見は、人間とAIが創造性についてどのように推論しているかについての重要な意味を強調し、評価時に異なる集団が優先するものに対する分岐の好みを示唆しています。
要約(オリジナル)
Creativity assessment in science and engineering is increasingly based on both human and AI judgment, but the cognitive processes and biases behind these evaluations remain poorly understood. We conducted two experiments examining how including example solutions with ratings impact creativity evaluation, using a finegrained annotation protocol where raters were tasked with explaining their originality scores and rating for the facets of remoteness (whether the response is ‘far’ from everyday ideas), uncommonness (whether the response is rare), and cleverness. In Study 1, we analyzed creativity ratings from 72 experts with formal science or engineering training, comparing those who received example solutions with ratings (example) to those who did not (no example). Computational text analysis revealed that, compared to experts with examples, no-example experts used more comparative language (e.g., ‘better/worse’) and emphasized solution uncommonness, suggesting they may have relied more on memory retrieval for comparisons. In Study 2, parallel analyses with state-of-the-art LLMs revealed that models prioritized uncommonness and remoteness of ideas when rating originality, suggesting an evaluative process rooted around the semantic similarity of ideas. In the example condition, while LLM accuracy in predicting the true originality scores improved, the correlations of remoteness, uncommonness, and cleverness with originality also increased substantially – to upwards of 0.99 – suggesting a homogenization in the LLMs evaluation of the individual facets. These findings highlight important implications for how humans and AI reason about creativity and suggest diverging preferences for what different populations prioritize when rating.
arxiv情報
著者 | Antonio Laverghetta Jr.,Tuhin Chakrabarty,Tom Hope,Jimmy Pronchick,Krupa Bhawsar,Roger E. Beaty |
発行日 | 2025-02-05 15:08:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google