Exploring the Limits of Fine-grained LLM-based Physics Inference via Premise Removal Interventions

要約

言語モデル (LM) は、複雑な数学的推論を実行するときに幻覚を起こすことがあります。
物理学は、数学的能力を評価するための豊富な領域を提供します。物理的コンテキストでは、あらゆる記号操作が複雑な意味論 (\textit{e.g.,} 単位、テンソル順序) を満たす必要があります。
この研究では、モデル推論が代数的に一貫していても非物理的である可能性があるインスタンスを強制するためのプロンプトから重要なコンテキストを体系的に削除します。
私たちは、複数の表記法と物理サブドメインを含む厳選されたデータセットを使用して、このドメインの LM 機能を評価します。
さらに、コンテキスト内の合成例を使用してゼロショット スコアを改善し、サポート前提の漸進的な省略による摂動強度による導出品質の非線形劣化を実証します。
この設定では、モデルの数学的推論が物理学に基づいていないことがわかります。この設定では、物理的なコンテキストは主に無視され、リバース エンジニアリングによる解決策が優先されます。

要約(オリジナル)

Language models (LMs) can hallucinate when performing complex mathematical reasoning. Physics provides a rich domain for assessing their mathematical capabilities, where physical context requires that any symbolic manipulation satisfies complex semantics (\textit{e.g.,} units, tensorial order). In this work, we systematically remove crucial context from prompts to force instances where model inference may be algebraically coherent, yet unphysical. We assess LM capabilities in this domain using a curated dataset encompassing multiple notations and Physics subdomains. Further, we improve zero-shot scores using synthetic in-context examples, and demonstrate non-linear degradation of derivation quality with perturbation strength via the progressive omission of supporting premises. We find that the models’ mathematical reasoning is not physics-informed in this setting, where physical context is predominantly ignored in favour of reverse-engineering solutions.

arxiv情報

著者 Jordan Meadows,Tamsin James,Andre Freitas
発行日 2024-10-01 06:17:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク