要約
この研究では、アートに関連する2つの領域での大規模な言語モデル(LLM)がどのように機能するかを調査しました。アート関連の状況における精神状態(心の理論、またはトム)についての芸術の批評と推論を書くことです。
批評家の部分のために、ノエル・キャロルの評価枠組みと幅広い芸術批評理論を組み合わせたシステムを構築しました。
このモデルは、最初にフルレングスの批評を書くように求められ、次にステップバイステップのプロンプトプロセスを使用して、より短く、よりコヒーレントなバージョンを作成するように求められました。
次に、これらのAIに生成された批評は、チューリングテストスタイルの評価で人間の専門家によって書かれたものと比較されました。
多くの場合、人間の被験者はどちらがどちらであるかを伝えるのが困難であり、結果は、LLMが慎重に導かれている限り、スタイルがもっともらしいだけでなく、解釈が豊富な批評を生み出すことができることを示唆しています。
第2部では、解釈、感情、道徳的緊張を含む状況に基づいて、芸術の文脈に現れる可能性のある新しいシンプルなトムタスクを導入しました。
これらは標準的な偽の信念テストを超えており、より複雑で社会的に組み込まれた推論の形式を可能にします。
最近の41のLLMSをテストし、そのパフォーマンスがタスクとモデルによって異なることを発見しました。
特に、感情的または曖昧な状況を伴うタスクは、より明確な違いを明らかにする傾向がありました。
総合すると、これらの結果は、LLMが複雑な解釈的課題にどのように反応するかを明確にし、認知的制限と可能性の両方を明らかにします。
私たちの調査結果は、いわゆる生成AIパラドックス(LLMが真の理解せずに専門家のような出力を生成できるという考え)と直接矛盾するわけではありませんが、慎重に設計されたプロンプトなど、LLMがどのように指示されるかに応じて、これらのモデルは想像するよりも密接に似ている行動を示すことを示唆しています。
要約(オリジナル)
This study explored how large language models (LLMs) perform in two areas related to art: writing critiques of artworks and reasoning about mental states (Theory of Mind, or ToM) in art-related situations. For the critique generation part, we built a system that combines Noel Carroll’s evaluative framework with a broad selection of art criticism theories. The model was prompted to first write a full-length critique and then shorter, more coherent versions using a step-by-step prompting process. These AI-generated critiques were then compared with those written by human experts in a Turing test-style evaluation. In many cases, human subjects had difficulty telling which was which, and the results suggest that LLMs can produce critiques that are not only plausible in style but also rich in interpretation, as long as they are carefully guided. In the second part, we introduced new simple ToM tasks based on situations involving interpretation, emotion, and moral tension, which can appear in the context of art. These go beyond standard false-belief tests and allow for more complex, socially embedded forms of reasoning. We tested 41 recent LLMs and found that their performance varied across tasks and models. In particular, tasks that involved affective or ambiguous situations tended to reveal clearer differences. Taken together, these results help clarify how LLMs respond to complex interpretative challenges, revealing both their cognitive limitations and potential. While our findings do not directly contradict the so-called Generative AI Paradox–the idea that LLMs can produce expert-like output without genuine understanding–they suggest that, depending on how LLMs are instructed, such as through carefully designed prompts, these models may begin to show behaviors that resemble understanding more closely than we might assume.
arxiv情報
著者 | Takaya Arita,Wenxian Zheng,Reiji Suzuki,Fuminori Akiba |
発行日 | 2025-04-17 10:10:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google