Fast Analysis of the OpenAI O1-Preview Model in Solving Random K-SAT Problem: Does the LLM Solve the Problem Itself or Call an External SAT Solver?

要約

この原稿では、$\alpha=M/N$ の関数として K$\in {2,3,4}$ のランダム K-SAT インスタンスを解く際の OpenAI O1 プレビュー モデルのパフォーマンスに関する分析を示します。
M$ は節の数、$N$ は充足可能な問題の変数の数です。
モデルがインスタンスを直接解決するのではなく、外部 SAT ソルバーを呼び出してインスタンスを解決できることを示します。
外部ソルバーを使用しているにもかかわらず、モデルは誤った割り当てを出力として報告します。
さらに、ブール充足可能性問題の割り当てを出力するときに、OpenAI O1 プレビュー モデルが知性の輝きを示しているのか、それとも単なるランダムな推測を行っているのかを定量化するための分析を提案し、提示します。

要約(オリジナル)

In this manuscript I present an analysis on the performance of OpenAI O1-preview model in solving random K-SAT instances for K$\in {2,3,4}$ as a function of $\alpha=M/N$ where $M$ is the number of clauses and $N$ is the number of variables of the satisfiable problem. I show that the model can call an external SAT solver to solve the instances, rather than solving them directly. Despite using external solvers, the model reports incorrect assignments as output. Moreover, I propose and present an analysis to quantify whether the OpenAI O1-preview model demonstrates a spark of intelligence or merely makes random guesses when outputting an assignment for a Boolean satisfiability problem.

arxiv情報

著者 Raffaele Marino
発行日 2024-09-17 14:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.CL パーマリンク