PaperBench: Evaluating AI’s Ability to Replicate AI Research

要約

AIエージェントが最先端のAI研究を再現する能力を評価するベンチマークであるPaperBenchを紹介します。
エージェントは、紙の貢献の理解、コードベースの開発、実験の実行に成功するなど、20のICML 2024スポットライトと口頭紙をゼロから複製する必要があります。
客観的な評価のために、各複製タスクを明確なグレーディング基準でより小さなサブタスクに階層的に分解するルーブリックを開発します。
合計で、Paperbenchには8,316個の個別に段階的なタスクが含まれています。
ルーブリックは、精度とリアリズムのために、各ICMLペーパーの著者と共同開発されています。
スケーラブルな評価を有効にするために、LLMベースの裁判官も開発して、ルーブリックに対する複製の試みを自動的に評価し、裁判官のための個別のベンチマークを作成することにより、裁判官のパフォーマンスを評価します。
PaperBenchでいくつかのフロンティアモデルを評価し、オープンソースの足場を備えた最高のパフォーマンスのテストエージェントであるClaude 3.5 Sonnet(新しい)が平均21.0 \%の平均複製スコアを達成することを発見しました。
最後に、Top ML PhDSを採用してPaperbenchのサブセットを試み、モデルがまだ人間のベースラインを上回っていないことを発見しました。
we \ href {https://github.com/openai/preparedness} {オープンソース私たちのコード} AIエージェントのAIエンジニアリング能力を理解する将来の研究を促進します。

要約(オリジナル)

We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research. Agents must replicate 20 ICML 2024 Spotlight and Oral papers from scratch, including understanding paper contributions, developing a codebase, and successfully executing experiments. For objective evaluation, we develop rubrics that hierarchically decompose each replication task into smaller sub-tasks with clear grading criteria. In total, PaperBench contains 8,316 individually gradable tasks. Rubrics are co-developed with the author(s) of each ICML paper for accuracy and realism. To enable scalable evaluation, we also develop an LLM-based judge to automatically grade replication attempts against rubrics, and assess our judge’s performance by creating a separate benchmark for judges. We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0\%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that models do not yet outperform the human baseline. We \href{https://github.com/openai/preparedness}{open-source our code} to facilitate future research in understanding the AI engineering capabilities of AI agents.

arxiv情報

著者 Giulio Starace,Oliver Jaffe,Dane Sherburn,James Aung,Jun Shern Chan,Leon Maksin,Rachel Dias,Evan Mays,Benjamin Kinsella,Wyatt Thompson,Johannes Heidecke,Amelia Glaese,Tejal Patwardhan
発行日 2025-04-02 15:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | PaperBench: Evaluating AI’s Ability to Replicate AI Research はコメントを受け付けていません

An Approach to Technical AGI Safety and Security

要約

人工一般情報(AGI)は、変革的利益を約束しますが、重大なリスクも提示します。
私たちは、人類を大幅に害するのに十分な結果的に害のリスクに対処するためのアプローチを開発します。
リスクの4つの領域を特定します:誤用、誤った整合、間違い、構造的リスク。
これらのうち、私たちは誤用と誤った整合をするための技術的なアプローチに焦点を当てています。
誤用のために、私たちの戦略は、危険な能力を積極的に特定し、堅牢なセキュリティ、アクセス制限、監視、モデルの安全緩和を実装することにより、脅威関係者が危険な機能にアクセスするのを防ぐことを目的としています。
不整合に対処するために、2つの防御線の概要を説明します。
第一に、増幅された監視や堅牢なトレーニングなどのモデルレベルの緩和は、整合したモデルの構築に役立ちます。
第二に、監視やアクセス制御などのシステムレベルのセキュリティ測定値は、モデルが誤って調整されていても、害を軽減する可能性があります。
解釈可能性、不確実性の推定、より安全な設計パターンからのテクニックは、これらの緩和の有効性を高めることができます。
最後に、これらの成分をどのように組み合わせてAGIシステムの安全性ケースを生成できるかを簡単に概説します。

要約(オリジナル)

Artificial General Intelligence (AGI) promises transformative benefits but also presents significant risks. We develop an approach to address the risk of harms consequential enough to significantly harm humanity. We identify four areas of risk: misuse, misalignment, mistakes, and structural risks. Of these, we focus on technical approaches to misuse and misalignment. For misuse, our strategy aims to prevent threat actors from accessing dangerous capabilities, by proactively identifying dangerous capabilities, and implementing robust security, access restrictions, monitoring, and model safety mitigations. To address misalignment, we outline two lines of defense. First, model-level mitigations such as amplified oversight and robust training can help to build an aligned model. Second, system-level security measures such as monitoring and access control can mitigate harm even if the model is misaligned. Techniques from interpretability, uncertainty estimation, and safer design patterns can enhance the effectiveness of these mitigations. Finally, we briefly outline how these ingredients could be combined to produce safety cases for AGI systems.

arxiv情報

著者 Rohin Shah,Alex Irpan,Alexander Matt Turner,Anna Wang,Arthur Conmy,David Lindner,Jonah Brown-Cohen,Lewis Ho,Neel Nanda,Raluca Ada Popa,Rishub Jain,Rory Greig,Samuel Albanie,Scott Emmons,Sebastian Farquhar,Sébastien Krier,Senthooran Rajamanoharan,Sophie Bridgers,Tobi Ijitoye,Tom Everitt,Victoria Krakovna,Vikrant Varma,Vladimir Mikulik,Zachary Kenton,Dave Orr,Shane Legg,Noah Goodman,Allan Dafoe,Four Flynn,Anca Dragan
発行日 2025-04-02 15:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG | An Approach to Technical AGI Safety and Security はコメントを受け付けていません

Code Red! On the Harmfulness of Applying Off-the-shelf Large Language Models to Programming Tasks

要約

現在、開発者は、大規模な言語モデル(LLM)を搭載したソリューションにますます依存して、コーディングタスクを支援しています。
これにより、これらのツールを人間の価値に合わせて、悪意のある誤用を防ぐことが重要になります。
この論文では、ソフトウェアエンジニアリングドメイン内のLLMの潜在的な有害性を評価するための包括的なフレームワークを提案します。
まず、潜在的に有害なソフトウェアエンジニアリングシナリオの分類法を開発し、その後、この分類法に基づいてプロンプトのデータセットを作成します。
回答を体系的に評価するために、オープンソースモデルとクローズドソースモデル、および汎用およびコード固有のLLMの両方のさまざまなLLMの出力を分類する自動評価者を設計および検証します。
さらに、モデルのサイズ、アーキテクチャファミリ、およびアラインメント戦略が有害なコンテンツを生成する傾向に対する影響を調査します。
結果は、無害性のためにさまざまなLLMの整合に大きな格差を示しています。
OpenHermesなどの一部のモデルやモデルファミリは、他のモデルよりも有害であり、コード固有のモデルは汎用の対応物よりも優れていないことがわかります。
特に、一部の微調整されたモデルは、デザインの選択により、ベースモデルよりも著しく悪化しています。
反対側では、より大きなモデルがより役に立つ傾向があり、有害な情報で応答する可能性が低いことがわかります。
これらの結果は、ソフトウェアエンジニアリングタスクのユニークな課題に合わせたターゲットを絞ったアライメント戦略の重要性を強調し、この重要な分野での将来の作業の基盤を提供します。

要約(オリジナル)

Nowadays, developers increasingly rely on solutions powered by Large Language Models (LLM) to assist them with their coding tasks. This makes it crucial to align these tools with human values to prevent malicious misuse. In this paper, we propose a comprehensive framework for assessing the potential harmfulness of LLMs within the software engineering domain. We begin by developing a taxonomy of potentially harmful software engineering scenarios and subsequently, create a dataset of prompts based on this taxonomy. To systematically assess the responses, we design and validate an automatic evaluator that classifies the outputs of a variety of LLMs both open-source and closed-source models, as well as general-purpose and code-specific LLMs. Furthermore, we investigate the impact of models size, architecture family, and alignment strategies on their tendency to generate harmful content. The results show significant disparities in the alignment of various LLMs for harmlessness. We find that some models and model families, such as Openhermes, are more harmful than others and that code-specific models do not perform better than their general-purpose counterparts. Notably, some fine-tuned models perform significantly worse than their base-models due to their design choices. On the other side, we find that larger models tend to be more helpful and are less likely to respond with harmful information. These results highlight the importance of targeted alignment strategies tailored to the unique challenges of software engineering tasks and provide a foundation for future work in this critical area.

arxiv情報

著者 Ali Al-Kaswan,Sebastian Deatc,Begüm Koç,Arie van Deursen,Maliheh Izadi
発行日 2025-04-02 16:00:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Code Red! On the Harmfulness of Applying Off-the-shelf Large Language Models to Programming Tasks はコメントを受け付けていません

Enhanced Diffusion Sampling via Extrapolation with Multiple ODE Solutions

要約

拡散確率モデル(DPMS)は、高品質のサンプルを生成するのに効果的ですが、反復的なサンプリングプロセスにより高い計算コストに苦しむことがよくあります。
これに対処するために、リチャードソンの外挿に触発されたDPMSの拡張されたODEベースのサンプリング方法を提案します。これにより、数値エラーが減少し、収束率が向上します。
私たちの方法であるRX-DPMは、DPMSの除去された予測を外挿するために、中間時間ステップで複数のODEソリューションを活用します。
これにより、機能評価の数(NFE)を維持しながら、最終サンプルの推定の精度が大幅に向上します。
タイムグリッドの均一な離散化を想定する標準のリチャードソン外挿とは異なり、ベースラインサンプリング方法から導出されたローカルトランケーションエラーに導かれた、任意のタイムステップスケジューリングに合わせたより一般的な定式化を開発します。
私たちのアプローチのシンプルさは、重要な計算オーバーヘッドなしで数値解の正確な推定を容易にし、さまざまなDPMSおよびソルバーへのシームレスで便利な統合を可能にします。
さらに、RX-DPMは明示的なエラー推定値を提供し、主要なエラー項の順序が増加するにつれて、より速い収束を効果的に実証します。
一連の実験を通じて、提案された方法が追加のサンプリング反復を必要とせずに生成されたサンプルの品質を改善することを示します。

要約(オリジナル)

Diffusion probabilistic models (DPMs), while effective in generating high-quality samples, often suffer from high computational costs due to their iterative sampling process. To address this, we propose an enhanced ODE-based sampling method for DPMs inspired by Richardson extrapolation, which reduces numerical error and improves convergence rates. Our method, RX-DPM, leverages multiple ODE solutions at intermediate time steps to extrapolate the denoised prediction in DPMs. This significantly enhances the accuracy of estimations for the final sample while maintaining the number of function evaluations (NFEs). Unlike standard Richardson extrapolation, which assumes uniform discretization of the time grid, we develop a more general formulation tailored to arbitrary time step scheduling, guided by local truncation error derived from a baseline sampling method. The simplicity of our approach facilitates accurate estimation of numerical solutions without significant computational overhead, and allows for seamless and convenient integration into various DPMs and solvers. Additionally, RX-DPM provides explicit error estimates, effectively demonstrating the faster convergence as the leading error term’s order increases. Through a series of experiments, we show that the proposed method improves the quality of generated samples without requiring additional sampling iterations.

arxiv情報

著者 Jinyoung Choi,Junoh Kang,Bohyung Han
発行日 2025-04-02 16:06:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Enhanced Diffusion Sampling via Extrapolation with Multiple ODE Solutions はコメントを受け付けていません

Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models

要約

チェーンオブテーブル(COT)は、大規模な言語モデル(LLM)の推論能力を高めるための重要なメカニズムとして浮上しており、自己整合性がパフォーマンスを向上させる顕著な約束を示しています。
ただし、多言語トレーニングのコーパスに固有の言語バイアスは、特にSub-10BパラメーターLLMSの複雑な推論タスクを処理するSub-10BパラメーターLLMSで、セマンティックドリフトと論理的な矛盾を頻繁に引き起こします。
これらの制約を克服するために、LLMSの推論能力を高めるために多数派の投票を通じて多言語の推論パスを統合する革新的な推論パラダイムである、横断的一貫性(CLC)フレームワークを提案します。
CMATHデータセットでの経験的評価は、従来の自己整合法に対するCLCの優位性を明らかにし、QWEN2.5-MATH-7B-struct、およびGemma2- instructのDeepSeek-Math-7B-structの9.5%、6.5%、および6.0%の絶対精度の向上をそれぞれ提供します。
CLCの言語範囲を11の多様な言語に拡大することは、2つの相乗的利点を意味します。1)多言語のアンサンブル投票を通じて多言語トレーニングコーパスにおける言語バイアスを中和する、2)より広い多言語ソリューションスペースを探索することにより、単一言語の推論トラップを逃れます。
この二重の利点は、MGSMデータセットのGEMMA2-9B-Instructを使用して4.1%-18.5%の精度が得られることによって証明されるように、単一言語の自己整合性ベースラインと比較して、よりグローバルに最適な推論パスを経験的に可能にします。

要約(オリジナル)

Chain-of-thought (CoT) has emerged as a critical mechanism for enhancing reasoning capabilities in large language models (LLMs), with self-consistency demonstrating notable promise in boosting performance. However, inherent linguistic biases in multilingual training corpora frequently cause semantic drift and logical inconsistencies, especially in sub-10B parameter LLMs handling complex inference tasks. To overcome these constraints, we propose the Cross-Lingual Consistency (CLC) framework, an innovative inference paradigm that integrates multilingual reasoning paths through majority voting to elevate LLMs’ reasoning capabilities. Empirical evaluations on the CMATH dataset reveal CLC’s superiority over the conventional self-consistency method, delivering 9.5%, 6.5%, and 6.0% absolute accuracy gains for DeepSeek-Math-7B-Instruct, Qwen2.5-Math-7B-Instruct, and Gemma2-9B-Instruct respectively. Expanding CLC’s linguistic scope to 11 diverse languages implies two synergistic benefits: 1) neutralizing linguistic biases in multilingual training corpora through multilingual ensemble voting, 2) escaping monolingual reasoning traps by exploring the broader multilingual solution space. This dual benefits empirically enables more globally optimal reasoning paths compared to monolingual self-consistency baselines, as evidenced by the 4.1%-18.5% accuracy gains using Gemma2-9B-Instruct on the MGSM dataset.

arxiv情報

著者 Zhiwei Yu,Tuo Li,Changhong Wang,Hui Chen,Lang Zhou
発行日 2025-04-02 16:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Cross-Lingual Consistency: A Novel Inference Framework for Advancing Reasoning in Large Language Models はコメントを受け付けていません

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

要約

大規模な言語モデル(LLM)の最近の進歩は、さまざまなドメインに革命をもたらし、大きな進歩と新しい機会をもたらしました。
音声関連のタスクの進歩にもかかわらず、LLMはマルチトーカーシナリオで十分に調査されていません。
この作業では、マルチトーカーの自動音声認識(ASR)、ターゲットトーカーASR、およびASRに関連する多用途の指示に従って、性別、発生順序、言語、キーワードなどの特定のトーカー属性に基づいて、マルチトーカー環境でのスピーチの転写におけるLLMの能力を調査するための先駆的な取り組みを提示します。
私たちのアプローチでは、WAVLMとWhisperエンコーダーを利用して、スピーカーの特性とセマンティックコンテキストに敏感な多面的な音声表現を抽出します。
これらの表現は、LORAを使用して微調整されたLLMに供給され、音声理解と転写の能力を可能にします。
包括的な実験では、カクテルパーティーシナリオで提案されたシステムであるMT-LLMの有望なパフォーマンスが明らかになり、このような複雑な設定でのユーザー命令に基づいて音声関連のタスクを処理するLLMの可能性を強調しています。
コード、モデル、およびサンプルは、https://github.com/cuhealthybrains/mt-llmで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have revolutionized various domains, bringing significant progress and new opportunities. Despite progress in speech-related tasks, LLMs have not been sufficiently explored in multi-talker scenarios. In this work, we present a pioneering effort to investigate the capability of LLMs in transcribing speech in multi-talker environments, following versatile instructions related to multi-talker automatic speech recognition (ASR), target talker ASR, and ASR based on specific talker attributes such as sex, occurrence order, language, and keyword spoken. Our approach utilizes WavLM and Whisper encoder to extract multi-faceted speech representations that are sensitive to speaker characteristics and semantic context. These representations are then fed into an LLM fine-tuned using LoRA, enabling the capabilities for speech comprehension and transcription. Comprehensive experiments reveal the promising performance of our proposed system, MT-LLM, in cocktail party scenarios, highlighting the potential of LLM to handle speech-related tasks based on user instructions in such complex settings. The code, model, and samples are available at https://github.com/cuhealthybrains/MT-LLM.

arxiv情報

著者 Lingwei Meng,Shujie Hu,Jiawen Kang,Zhaoqing Li,Yuejiao Wang,Wenxuan Wu,Xixin Wu,Xunying Liu,Helen Meng
発行日 2025-04-02 16:16:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions はコメントを受け付けていません

From Code Generation to Software Testing: AI Copilot with Context-Based RAG

要約

大規模なソフトウェア開発の急速なペースにより、従来のテスト方法の需要が高まり、多くの場合、効率、精度、およびカバレッジのボトルネックにつながります。
バグの検出と、より少ないバグでのコーディングを、共通の目標を共有する2つの相互接続された問題として、リソースが限られていることを削減することにより、バグのコードを設定することにより、ソフトウェアテストに関する新しい視点を提案します。
コードの自動完了とチャットボット駆動のQ&AをサポートするAIアシストプログラミングに関する以前の作業をソフトウェアテストの領域に拡張します。
バグ検出をコードベースの更新と同期する自動テストシステムであるテスト用のCopilotを紹介し、コンテキストベースの検索拡張生成(RAG)を活用して、大規模な言語モデル(LLMS)の機能を強化します。
私たちの評価は、バグ検出精度の31.2%の改善、重要なテストカバレッジの12.6%の増加、および最新のソフトウェア開発プラクティスにおけるAI主導の技術の変革の可能性を強調している10.5%のユーザー受け入れ率を示しています。

要約(オリジナル)

The rapid pace of large-scale software development places increasing demands on traditional testing methodologies, often leading to bottlenecks in efficiency, accuracy, and coverage. We propose a novel perspective on software testing by positing bug detection and coding with fewer bugs as two interconnected problems that share a common goal, which is reducing bugs with limited resources. We extend our previous work on AI-assisted programming, which supports code auto-completion and chatbot-powered Q&A, to the realm of software testing. We introduce Copilot for Testing, an automated testing system that synchronizes bug detection with codebase updates, leveraging context-based Retrieval Augmented Generation (RAG) to enhance the capabilities of large language models (LLMs). Our evaluation demonstrates a 31.2% improvement in bug detection accuracy, a 12.6% increase in critical test coverage, and a 10.5% higher user acceptance rate, highlighting the transformative potential of AI-driven technologies in modern software development practices.

arxiv情報

著者 Yuchen Wang,Shangxin Guo,Chee Wei Tan
発行日 2025-04-02 16:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.PL, cs.SE | From Code Generation to Software Testing: AI Copilot with Context-Based RAG はコメントを受け付けていません

SeizureTransformer: Scaling U-Net with Transformer for Simultaneous Time-Step Level Seizure Detection from Long EEG Recordings

要約

てんかんは、世界中で約6500万人に影響を与える一般的な神経障害です。
関連する合併症の有病率と重症度を考えると、発作を迅速かつ正確に検出することが不可欠です。
最近、ディープラーニングベースの自動発作検出方法が解決策として浮上しています。
ただし、ほとんどの既存の方法では、広範な後処理が必要であり、EEGデータの重要な長距離パターンを効果的に処理しません。
この作業では、(i)1D畳み込み(ii)残留CNNスタックと変圧器エンコーダで構成される深いエンコーダで構成されるシンプルなモデルであるSeizureTransformerを提案します。
公共および民間のEEG発作検出データセットに関する広範な実験は、私たちのモデルが、てんかんおよびその他の神経障害に関する国際知能に関する国際会議で組織された2025年の「発作検出チャレンジ」で既存のアプローチ(最初の場所でランク付けされた)を大幅に上回ることを示しています。

要約(オリジナル)

Epilepsy is a common neurological disorder that affects around 65 million people worldwide. Detecting seizures quickly and accurately is vital, given the prevalence and severity of the associated complications. Recently, deep learning-based automated seizure detection methods have emerged as solutions; however, most existing methods require extensive post-processing and do not effectively handle the crucial long-range patterns in EEG data. In this work, we propose SeizureTransformer, a simple model comprised of (i) a deep encoder comprising 1D convolutions (ii) a residual CNN stack and a transformer encoder to embed previous output into high-level representation with contextual information, and (iii) streamlined decoder which converts these features into a sequence of probabilities, directly indicating the presence or absence of seizures at every time step. Extensive experiments on public and private EEG seizure detection datasets demonstrate that our model significantly outperforms existing approaches (ranked in the first place in the 2025 ‘seizure detection challenge’ organized in the International Conference on Artificial Intelligence in Epilepsy and Other Neurological Disorders), underscoring its potential for real-time, precise seizure detection.

arxiv情報

著者 Kerui Wu,Ziyue Zhao,Bülent Yener
発行日 2025-04-02 16:23:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SeizureTransformer: Scaling U-Net with Transformer for Simultaneous Time-Step Level Seizure Detection from Long EEG Recordings はコメントを受け付けていません

Interpreting Emergent Planning in Model-Free Reinforcement Learning

要約

モデルのない強化学習エージェントが計画を学ぶことができるという最初の機構的証拠を提示します。
これは、概念ベースの解釈性に基づいて、計画を勉強するために一般的に使用されるベンチマークであるソコバンのモデルのないエージェントに方法論を適用することによって達成されます。
具体的には、Guez et al。
(2019)、学んだ概念表現を使用して、環境に対するアクションの長期的な影響を予測する計画とアクションの選択に影響を与える計画を内部的に策定します。
私たちの方法論には、(1)計画関連の概念の調査、(2)エージェントの表現内の計画形成の調査、および(3)発見された計画(エージェントの表現)が介入を通じてエージェントの行動に因果的影響があることを検証することが含まれます。
また、これらの計画の出現は、計画のようなプロパティの出現、つまり追加のテスト時間計算から利益を得る能力と一致していることを示しています。
最後に、エージェントが学んだ計画アルゴリズムの定性分析を実行し、並列化された双方向の検索に強い類似性を発見します。
私たちの調査結果は、エージェントの計画行動の根底にある内部メカニズムの理解を促進します。これは、RLを介したLLMSの緊急計画と推論能力の最近の傾向を考えると重要です

要約(オリジナル)

We present the first mechanistic evidence that model-free reinforcement learning agents can learn to plan. This is achieved by applying a methodology based on concept-based interpretability to a model-free agent in Sokoban — a commonly used benchmark for studying planning. Specifically, we demonstrate that DRC, a generic model-free agent introduced by Guez et al. (2019), uses learned concept representations to internally formulate plans that both predict the long-term effects of actions on the environment and influence action selection. Our methodology involves: (1) probing for planning-relevant concepts, (2) investigating plan formation within the agent’s representations, and (3) verifying that discovered plans (in the agent’s representations) have a causal effect on the agent’s behavior through interventions. We also show that the emergence of these plans coincides with the emergence of a planning-like property: the ability to benefit from additional test-time compute. Finally, we perform a qualitative analysis of the planning algorithm learned by the agent and discover a strong resemblance to parallelized bidirectional search. Our findings advance understanding of the internal mechanisms underlying planning behavior in agents, which is important given the recent trend of emergent planning and reasoning capabilities in LLMs through RL

arxiv情報

著者 Thomas Bush,Stephen Chung,Usman Anwar,Adrià Garriga-Alonso,David Krueger
発行日 2025-04-02 16:24:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Interpreting Emergent Planning in Model-Free Reinforcement Learning はコメントを受け付けていません

Efficient Imitation under Misspecification

要約

誤解の下で模倣学習の問題を検討します。学習者が根本的にどこでも専門家の行動を再現できない設定です。
これは、観測空間と作用空間の表現力の違い(例えば、ロボットと人間の知覚的または形態学的な違い)のために、実際にはしばしば真実です。
学習者が誤った設定でいくつかの間違いを犯さなければならないことを考えると、どの間違いが特に費用がかかり、複合エラーにつながるかを把握するために環境との相互作用が基本的に必要です。
ただし、相互作用に固有の計算コストと安全性の懸念を考えると、強力なポリシーを学んだことを確認しながら、できるだけ少なく実行したいと考えています。
したがって、以前の研究は、実現可能な設定で強力な保証を備えた計算効率の高いローカル検索手順を実行するだけで、効率的な逆補強学習アルゴリズムのフレーバーを提案しました。
まず、新しい構造的条件の下で、報酬に依存しないポリシーの完全性と呼ばれることを証明します。これらの種類のローカル検索ベースのIRLアルゴリズムは、複合エラーを回避できることを証明します。
次に、学習者が「綱渡りをしている」ことができない可能性があるため、最初にローカル検索を行うべき場所の問題を検討します。
指定された設定では、学習者が実際にプレイできる良いポリシーによって到達可能なものを含めるようにローカル検索が実行される状態のセットを拡大することが有益であることを証明します。
次に、さまざまな誤解のソースと、オフラインデータを使用して、ローカル検索を実行する場所を効果的に拡大する方法を実験的に調査します。

要約(オリジナル)

We consider the problem of imitation learning under misspecification: settings where the learner is fundamentally unable to replicate expert behavior everywhere. This is often true in practice due to differences in observation space and action space expressiveness (e.g. perceptual or morphological differences between robots and humans). Given the learner must make some mistakes in the misspecified setting, interaction with the environment is fundamentally required to figure out which mistakes are particularly costly and lead to compounding errors. However, given the computational cost and safety concerns inherent in interaction, we’d like to perform as little of it as possible while ensuring we’ve learned a strong policy. Accordingly, prior work has proposed a flavor of efficient inverse reinforcement learning algorithms that merely perform a computationally efficient local search procedure with strong guarantees in the realizable setting. We first prove that under a novel structural condition we term reward-agnostic policy completeness, these sorts of local-search based IRL algorithms are able to avoid compounding errors. We then consider the question of where we should perform local search in the first place, given the learner may not be able to ‘walk on a tightrope’ as well as the expert in the misspecified setting. We prove that in the misspecified setting, it is beneficial to broaden the set of states on which local search is performed to include those reachable by good policies the learner can actually play. We then experimentally explore a variety of sources of misspecification and how offline data can be used to effectively broaden where we perform local search from.

arxiv情報

著者 Nicolas Espinosa-Dice,Sanjiban Choudhury,Wen Sun,Gokul Swamy
発行日 2025-04-02 16:32:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient Imitation under Misspecification はコメントを受け付けていません