要約
ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以上のものが必要です。
構造化された視覚的説明による効果的なコミュニケーションは、より深い理解のために重要です。
大規模な言語モデル(LLMS)は、テキストベースの定理推論において強力なパフォーマンスを示していますが、コヒーレントで教育的に意味のある視覚的説明を生成する能力は、未解決の課題のままです。
この作業では、マニムアニメーションを使用して長型の定理的な説明ビデオ(5分以上)を生成するためのエージェントアプローチであるremexplainagentを紹介します。
マルチモーダル定理の説明を体系的に評価するために、5つの自動評価メトリックとともに、複数のSTEM分野にわたる240の定理をカバーするベンチマークであるTheoremexplainbenchを提案します。
私たちの結果は、エージェントの計画が詳細な長型ビデオを生成するために不可欠であり、O3-MINIエージェントの成功率は93.8%と0.77の総合スコアを達成することを明らかにしています。
しかし、私たちの定量的および定性的研究は、作成されたビデオのほとんどが視覚的な要素レイアウトでマイナーな問題を示していることを示しています。
さらに、マルチモーダルの説明は、テキストベースの説明が明らかにできず、マルチモーダルの説明の重要性を強調しているという、より深い推論の欠陥を明らかにします。
要約(オリジナル)
Understanding domain-specific theorems often requires more than just text-based reasoning; effective communication through structured visual explanations is crucial for deeper comprehension. While large language models (LLMs) demonstrate strong performance in text-based theorem reasoning, their ability to generate coherent and pedagogically meaningful visual explanations remains an open challenge. In this work, we introduce TheoremExplainAgent, an agentic approach for generating long-form theorem explanation videos (over 5 minutes) using Manim animations. To systematically evaluate multimodal theorem explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems across multiple STEM disciplines, along with 5 automated evaluation metrics. Our results reveal that agentic planning is essential for generating detailed long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an overall score of 0.77. However, our quantitative and qualitative studies show that most of the videos produced exhibit minor issues with visual element layout. Furthermore, multimodal explanations expose deeper reasoning flaws that text-based explanations fail to reveal, highlighting the importance of multimodal explanations.
arxiv情報
著者 | Max Ku,Thomas Chong,Jonathan Leung,Krish Shah,Alvin Yu,Wenhu Chen |
発行日 | 2025-02-26 18:50:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google