要約
私たちは、複数の言語と主題領域にまたがる多様な物理概念の一覧表における、大規模な言語モデルベースの人工知能 (AI) システムである GPT-4o の多言語およびマルチモーダルなパフォーマンスを調査します。
PhysPort Web サイトから取得した目録には、力学、電磁気学、光学、熱力学などの古典的な物理学のトピックだけでなく、相対性理論、量子力学、天文学、数学、実験スキルも含まれています。
これまでのテキストのみの研究とは異なり、学生が紙で見るものを反映した画像として目録をアップロードし、システムのマルチモーダル機能を評価しました。
AI は英語で指示され、応答する言語を自律的に選択します。テストの名目上の言語を維持するか、完全に英語に切り替えるか、言語を混合するかのいずれかです。言語の複雑さとデータの可用性に応じて適応的な動作が明らかになります。
私たちの結果は、科目領域ごとにパフォーマンスに多少のばらつきがあり、実験室のスキルが最もパフォーマンスが低い領域として際立っていることを示しています。
さらに、画像の視覚的な解釈を必要とする質問に対する AI のパフォーマンスは、純粋にテキストベースの質問よりも劣ります。
AIにとって難しい質問は、常にそのようなインベントリ言語になる傾向があります。
また、言語によってパフォーマンスに大きなばらつきがあり、一部の言語では、人間の話者のコード切り替えに似た現象である言語切り替えから大幅に利益が得られるようです。
全体として、得られた AI の結果を既存の文献と比較すると、AI システムは、実験スキルを除くすべての科目分野で、指導後の平均的な学部生の成績を上回っていることがわかります。
要約(オリジナル)
We investigate the multilingual and multimodal performance of a large language model-based artificial intelligence (AI) system, GPT-4o, on a diverse set of physics concept inventories spanning multiple languages and subject areas. The inventories taken from the PhysPort website cover the classical physics topics of mechanics, electromagnetism, optics, and thermodynamics as well as relativity, quantum mechanics, astronomy, mathematics, and laboratory skills. Unlike previous text-only studies, we uploaded the inventories as images mirroring what a student would see on paper, assessing the system’s multimodal functionality. The AI is prompted in English and autonomously chooses the language of its response – either remaining in the nominal language of the test, switching entirely to English, or mixing languages – revealing adaptive behavior dependent on linguistic complexity and data availability. Our results indicate some variation in performance across subject areas, with laboratory skills standing out as the area of poorest performance. Furthermore, the AI’s performance on questions that require visual interpretation of images is worse than on purely text-based questions. Questions that are difficult for the AI tend to be that way invariably of the inventory language. We also find large variations in performance across languages, with some appearing to benefit substantially from language switching, a phenomenon similar to code-switching ofhuman speakers. Overall, comparing the obtained AI results to the existing literature, we find that the AI system outperforms average undergraduate students post-instruction in all subject areas but laboratory skills.
arxiv情報
著者 | Gerd Kortemeyer,Marina Babayeva,Giulia Polverini,Bor Gregorcic,Ralf Widenhorn |
発行日 | 2025-01-10 18:08:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google