Are Large Language Models Reliable AI Scientists? Assessing Reverse-Engineering of Black-Box Systems

要約

AIを使用して自律的な研究者を作成することは、科学的発見を加速する可能性があります。
このビジョンの前提条件は、AIモデルがその動作からブラックボックスシステムの基礎となる構造をどの程度識別できるかを理解することです。
この論文では、大規模な言語モデル(LLM)が、受動的に観察されたものとアクティブに収集されたデータからブラックボックス関数を特定することをどのように学習するかを探ります。
3つの異なるタイプのブラックボックスシステムにわたるLLMのリバースエンジニアリング機能を調査します。それぞれが、将来の自律AI研究者がプログラム、正式な言語、数学方程式のかなりの影響を与える可能性のある異なる問題ドメインを表すために選択されました。
広範な実験を通じて、LLMSは観察から情報を抽出できず、ベイジアン推論の理想に達していない性能高原に到達することを示します。
ただし、LLMSに観察するだけでなく介入するように促すこと – 特定の入力でブラックボックスを積極的にクエリするために、結果の出力を観察することにより、LLMがエッジケースをテストして信念を改善できるようにすることでパフォーマンスを向上させることを実証します。
あるLLMから別のLLMに介入データを提供することにより、この改善は、効果的な介入を生成するプロセスに関与した結果であることを示しています。
さらなる分析により、介入に関与することでLLMが2つの一般的な障害モードから逃れるのに役立つことが明らかになりました:LLMがブラックボックスに関する事前の知識を誤って想定している場合、LLMが観察を組み込んでいない場所を見落としていることが明らかになりました。
これらの洞察は、LLMSがより効果的にリバースエンジニアのブラックボックスシステムを支援するための実用的なガイダンスを提供し、新しい発見を行う際の使用をサポートしています。

要約(オリジナル)

Using AI to create autonomous researchers has the potential to accelerate scientific discovery. A prerequisite for this vision is understanding how well an AI model can identify the underlying structure of a black-box system from its behavior. In this paper, we explore how well a large language model (LLM) learns to identify a black-box function from passively observed versus actively collected data. We investigate the reverse-engineering capabilities of LLMs across three distinct types of black-box systems, each chosen to represent different problem domains where future autonomous AI researchers may have considerable impact: Program, Formal Language, and Math Equation. Through extensive experiments, we show that LLMs fail to extract information from observations, reaching a performance plateau that falls short of the ideal of Bayesian inference. However, we demonstrate that prompting LLMs to not only observe but also intervene — actively querying the black-box with specific inputs to observe the resulting output — improves performance by allowing LLMs to test edge cases and refine their beliefs. By providing the intervention data from one LLM to another, we show that this improvement is partly a result of engaging in the process of generating effective interventions, paralleling results in the literature on human learning. Further analysis reveals that engaging in intervention can help LLMs escape from two common failure modes: overcomplication, where the LLM falsely assumes prior knowledge about the black-box, and overlooking, where the LLM fails to incorporate observations. These insights provide practical guidance for helping LLMs more effectively reverse-engineer black-box systems, supporting their use in making new discoveries.

arxiv情報

著者 Jiayi Geng,Howard Chen,Dilip Arumugam,Thomas L. Griffiths
発行日 2025-05-23 14:37:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク