Machine learning and information theory concepts towards an AI Mathematician

要約

現在の人工知能の最先端技術は、特に言語の習得という点では素晴らしいものですが、数学的推論の点ではそれほど優れていません。
何が足りないでしょうか?
数学者の頭脳がどのように仕事に取り組んでいるのかから、そのギャップについて何か役立つことを学べるでしょうか?
このエッセイは、現在の深層学習は、システム 1 の能力 (直感や習慣的な行動に対応する) ではほぼ成功しているが、推論やロバストな不確実性の推定を含むシステム 2 の能力に関しては、まだ重要な点が欠けているという考えに基づいています。
興味深い数学的記述を構成するものについて質問するには、情報理論的な姿勢が必要であり、AI 数学者を作成する際の将来の研究の指針となる可能性があります。
焦点は、特定の定理を証明することではなく、新しくて興味深い推測を発見することにあります。
中心的な仮説は、望ましい定理本体は、たとえば、短い記述長を持ちながら同時に多くの証明可能なステートメントに (導出ステップの数の点で) 近くなることで、すべての証明可能なステートメントのセットをより適切に要約するというものです。

要約(オリジナル)

The current state-of-the-art in artificial intelligence is impressive, especially in terms of mastery of language, but not so much in terms of mathematical reasoning. What could be missing? Can we learn something useful about that gap from how the brains of mathematicians go about their craft? This essay builds on the idea that current deep learning mostly succeeds at system 1 abilities — which correspond to our intuition and habitual behaviors — but still lacks something important regarding system 2 abilities — which include reasoning and robust uncertainty estimation. It takes an information-theoretical posture to ask questions about what constitutes an interesting mathematical statement, which could guide future work in crafting an AI mathematician. The focus is not on proving a given theorem but on discovering new and interesting conjectures. The central hypothesis is that a desirable body of theorems better summarizes the set of all provable statements, for example by having a small description length while at the same time being close (in terms of number of derivation steps) to many provable statements.

arxiv情報

著者 Yoshua Bengio,Nikolay Malkin
発行日 2024-03-07 15:12:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク