CycleResearcher: Improving Automated Research via Automated Review

要約

科学的発見の自動化は、知識の創造を加速する可能性によって推進される研究コミュニティ内で長年の目標となっています。
コマーシャルラージランゲージモデル(LLMS)を研究助手またはアイデアジェネレーターとして使用して大幅な進歩がなされていますが、オープンソースLLMで研究プロセス全体を自動化する可能性はほとんど未開拓のままです。
このペーパーでは、文献レビューや原稿の準備からピアレビューや紙の改良まで、自動化された研究とレビューの全サイクルを実行できる自律エージェントとして、オープンソース後の訓練を受けたLLMを使用する可能性を探ります。
反復的な優先トレーニングフレームワークは、研究タスクを実施するサイクラー検索者と、ピアレビュープロセスをシミュレートし、強化学習を通じて反復フィードバックを提供するCyclereViewerで構成されています。
これらのモデルをトレーニングするために、実際の機械学習研究とピアレビューのダイナミクスを反映して、2つの新しいデータセット、Review-5KとResearch-14Kを開発します。
我々の結果は、サイクレルビューワーが紙のスコアを予測する際に個々の人間のレビュアーと比較して、平均絶対誤差(MAE)の26.89%\%減少で有望なパフォーマンスを達成し、LLMが専門家レベルの研究評価を効果的に支援する可能性を示していることを示しています。
研究では、Cycleresearcherモデルによって生成された論文は、シミュレートされたピアレビューで5.36のスコアを達成し、人間の専門家からの5.24の前リントレベルと比較してシミュレートされたレビュースコアに関してある程度の競争力を示し、認められた書類レベルの5.69と比較して改善の余地があります。
この研究は、完全に自動化された科学的調査に向けた重要なステップを表しており、倫理的保護手段を提供し、AI主導の研究能力を調査します。
コード、データセット、モデルの重量は、https://wengsyx.github.io/researcher/でリリースされます。

要約(オリジナル)

The automation of scientific discovery has been a long-standing goal within the research community, driven by the potential to accelerate knowledge creation. While significant progress has been made using commercial large language models (LLMs) as research assistants or idea generators, the possibility of automating the entire research process with open-source LLMs remains largely unexplored. This paper explores the feasibility of using open-source post-trained LLMs as autonomous agents capable of performing the full cycle of automated research and review, from literature review and manuscript preparation to peer review and paper refinement. Our iterative preference training framework consists of CycleResearcher, which conducts research tasks, and CycleReviewer, which simulates the peer review process, providing iterative feedback via reinforcement learning. To train these models, we develop two new datasets, Review-5k and Research-14k, reflecting real-world machine learning research and peer review dynamics. Our results demonstrate that CycleReviewer achieves promising performance with a 26.89\% reduction in mean absolute error (MAE) compared to individual human reviewers in predicting paper scores, indicating the potential of LLMs to effectively assist expert-level research evaluation. In research, the papers generated by the CycleResearcher model achieved a score of 5.36 in simulated peer reviews, showing some competitiveness in terms of simulated review scores compared to the preprint level of 5.24 from human experts, while still having room for improvement compared to the accepted paper level of 5.69. This work represents a significant step toward fully automated scientific inquiry, providing ethical safeguards and exploring AI-driven research capabilities. The code, dataset and model weight are released at https://wengsyx.github.io/Researcher/

arxiv情報

著者 Yixuan Weng,Minjun Zhu,Guangsheng Bao,Hongbo Zhang,Jindong Wang,Yue Zhang,Linyi Yang
発行日 2025-03-05 16:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | CycleResearcher: Improving Automated Research via Automated Review はコメントを受け付けていません

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

要約

Starcraft Multi-Agent Challenge(SMAC)は、マルチエージェント補強学習(MARL)で最も一般的に使用される実験環境の1つであり、特定のタスクは、敵軍を倒すためにセット数の関連ユニットを制御することです。
従来のMARLアルゴリズムは、多くの場合、数百万のステップで環境と対話する必要があります。パラメトリックモデルをトレーニングします。このポリシーは、通常、移動性が低い場合に解釈できません。
この論文では、DeepSeek-Coder-V2.5-236Bから蒸留されたQWEN2.5-7BベースLLMに基づくSMAC-R1を紹介します。
オフライン学習プロセスでの動作後のオンライン強化学習と同様に、パイプラインでは、エージェントはDeepSeek LLMを活用してタスクの説明を提供することで決定ツリーコードを生成し、エージェントは環境が提供する報酬からのフィードバックを使用してさらに自己反映されます。
それに基づいて、生成されたスクリプトを拡張して、小さなLLM、QWEN2.5-7Bベースを微調整して、監視された微調整(SFT)を介して意思決定能力を蒸留し、グループ相対ポリシー最適化(GRPO)アルゴリズムによってスクリプト生成能力を強化します。
元の23のSMACタスクと10の新しく設計されたタスクで実験を実施して、この方法で最小限の環境探査で高品質で解釈可能な決定ツリーを生成できることを実証します。
さらに、これらのスクリプトは強い転送可能性を示し、変更なしで均質なSMAC環境に正常に適用します。
このアプローチは、将来の意思決定タスクとドメイン固有のLLMトレーニングパイプラインを解決するための新しい方向性を提供すると考えています。

要約(オリジナル)

StarCraft Multi-Agent Challenge (SMAC) has been one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for millions of steps to train a parametric model, of which the resulting policies are typically non-interpretable with weak transferability. In this paper, we introduce SMAC-R1 which is based on the Qwen2.5-7B-Base LLM distilled from DeepSeek-Coder-v2.5-236B. Similar to online reinforcement learning after behavior cloning in offline learning process, in our pipeline, agents leverage the DeepSeek LLM to generate decision tree code by providing task descriptions, and the agents are further self-reflected using feedback from the rewards provided by the environment. Based on that, we augment the generated scripts to fine-tune a small LLM, Qwen2.5-7B-Base, to distill the decision-making ability via Supervised Fine-Tuning (SFT) and enhance the script generation ability by the Group Relative Policy Optimization (GRPO) algorithm. We conduct experiments in the original 23 SMAC tasks and 10 newly-designed tasks to demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these scripts exhibit strong transferability, successfully applying to homogeneous SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks and domain-specific LLM training pipelines in the future.

arxiv情報

著者 Yue Deng,Weiyu Ma,Yuxin Fan,Ruyi Song,Yin Zhang,Haifeng Zhang,Jian Zhao
発行日 2025-03-05 16:49:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks はコメントを受け付けていません

A privacy-preserving, distributed and cooperative FCM-based learning approach for cancer research

要約

分散型人工知能は、日々興味を集めています。
この論文では、著者は、粒子群群最適化ベースのファジー認知マップの分散学習のための革新的な方法論をプライバシーを授与する方法で紹介しています。
著者は、現在の規制に準拠したデータプライバシーを提供する共同FCM学習のためのトレーニングスキームを設計しています。
この方法は、がんの検出問題に適用され、モデルのパフォーマンスがフェデレーション学習プロセスによって改善されることを証明し、文献にあるものと同様の結果を得ることができます。

要約(オリジナル)

Distributed Artificial Intelligence is attracting interest day by day. In this paper, the authors introduce an innovative methodology for distributed learning of Particle Swarm Optimization-based Fuzzy Cognitive Maps in a privacy-preserving way. The authors design a training scheme for collaborative FCM learning that offers data privacy compliant with the current regulation. This method is applied to a cancer detection problem, proving that the performance of the model is improved by the Federated Learning process, and obtaining similar results to the ones that can be found in the literature.

arxiv情報

著者 Jose L. Salmeron,Irina Arévalo
発行日 2025-03-05 16:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | A privacy-preserving, distributed and cooperative FCM-based learning approach for cancer research はコメントを受け付けていません

Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models

要約

私たちは、ドメイン専門化された推論の青写真を介して大規模な言語モデルの指導を大幅に改善する斬新な構造化された推論アプローチである、注意深い推論クエリ(ARQ)を提示します。
LLMは多様なタスク全体で顕著な機能を示していますが、多ターン会話中に複雑でユースケース固有の指示への順守を維持できないことが多く、ビジネス批判的なアプリケーションの課題を提示します。
ARQSは、重要な指示を回復し、完了プロセス全体の中間推論を促進するターゲットクエリを使用して、体系的な推論ステップを通じてLLMを導くことにより、この制限に対処します。
Parlant内での広範なテストでは、ARQが必然的に生まれた信頼できる顧客向けエージェントのフレームワークでは、87のテストシナリオで90.2%の成功率を達成し、考え方の推論(86.1%)と直接的な応答の生成(81.5%)を上回りました。
ARQは、ガイドラインの再利用や幻覚防止などの永続的な障害モードに対処する際に特定の強さを示しました。
また、私たちの分析により、ARQは、慎重に設計された場合、自由形式の推論よりも計算効率が高い可能性があることが明らかになりました。
これらの調査結果は、構造化された推論アプローチが、LLMSが情報を処理する方法を制御し、複雑なシナリオで決定を下すための効果的なメカニズムを提供することを示しています。

要約(オリジナル)

We present Attentive Reasoning Queries (ARQs), a novel structured reasoning approach that significantly improves instruction-following in Large Language Models through domain-specialized reasoning blueprints. While LLMs demonstrate remarkable capabilities across diverse tasks, they often fail to maintain adherence to complex, use-case-specific instructions during multi-turn conversations, presenting challenges for business-critical applications. ARQs address this limitation by guiding LLMs through systematic reasoning steps with targeted queries that reinstate critical instructions and facilitate intermediate reasoning throughout the completion process. In extensive testing within Parlant, our framework for reliable customer-facing agents in which ARQs were born out of necessity, they achieved a 90.2% success rate across 87 test scenarios, outperforming both Chain-of-Thought reasoning (86.1%) and direct response generation (81.5%). ARQs showed particular strength in addressing persistent failure modes like guideline re-application and hallucination prevention. Our analysis also revealed that ARQs can potentially be more computationally efficient than free-form reasoning when carefully designed. These findings demonstrate that structured reasoning approaches provide effective mechanisms for controlling how LLMs process information and make decisions in complex scenarios.

arxiv情報

著者 Bar Karov,Dor Zohar,Yam Marcovitz
発行日 2025-03-05 17:03:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | Attentive Reasoning Queries: A Systematic Method for Optimizing Instruction-Following in Large Language Models はコメントを受け付けていません

Bonsai: Gradient-free Graph Distillation for Node Classification

要約

グラフの蒸留は、トレーニングデータセットを圧縮しながら必須グラフ特性を保持していることにより、GNNのスケーラブルなトレーニングを可能にする有望な手段として浮上しています。
私たちの研究は、現在のグラフ蒸留技術の重要な欠点を明らかにしています。
まず、アルゴリズムの大部分は、蒸留を実行するために完全なデータセットでのトレーニングを逆説的に必要とします。
第二に、勾配排出アプローチのため、これらの方法では、ハイパーパラメーターまたはGNNアーキテクチャの変化に新たな蒸留が必要であり、柔軟性と再利用性を制限します。
最後に、完全に接続されたエッジ加重グラフの合成により、大幅なサイズの削減を達成できません。
これらの課題に対処するために、vonsaiは、\ textit {computation trees}がメッセージ通過GNNの基本処理単位を形成するという観察によって力を与えられた新しいグラフ蒸留方法です。
盆栽は、トレーニングセット内のすべての計算ツリーの表現を最大化する\ textit {exemplar}ツリーの慎重な選択をエンコードすることにより、データセットを蒸留します。
このユニークなアプローチは、盆栽を最初の線形タイム、モデルに依存しないグラフ蒸留アルゴリズムとして与えます。これは、平均で22ドルの$ $ $ $ 22 $ $ $ $ 6 $のベースラインよりも既存のベースラインを上回ります。
盆栽は、採用された近似戦略に関する厳格な数学的保証に基づいており、GNNアーキテクチャ、データセット、およびパラメーターに堅牢になります。

要約(オリジナル)

Graph distillation has emerged as a promising avenue to enable scalable training of GNNs by compressing the training dataset while preserving essential graph characteristics. Our study uncovers significant shortcomings in current graph distillation techniques. First, the majority of the algorithms paradoxically require training on the full dataset to perform distillation. Second, due to their gradient-emulating approach, these methods require fresh distillation for any change in hyperparameters or GNN architecture, limiting their flexibility and reusability. Finally, they fail to achieve substantial size reduction due to synthesizing fully-connected, edge-weighted graphs. To address these challenges, we present Bonsai, a novel graph distillation method empowered by the observation that \textit{computation trees} form the fundamental processing units of message-passing GNNs. Bonsai distills datasets by encoding a careful selection of \textit{exemplar} trees that maximize the representation of all computation trees in the training set. This unique approach imparts Bonsai as the first linear-time, model-agnostic graph distillation algorithm for node classification that outperforms existing baselines across $6$ real-world datasets on accuracy, while being $22$ times faster on average. Bonsai is grounded in rigorous mathematical guarantees on the adopted approximation strategies making it robust to GNN architectures, datasets, and parameters.

arxiv情報

著者 Mridul Gupta,Samyak Jain,Vansh Ramani,Hariprasad Kodamana,Sayan Ranu
発行日 2025-03-05 17:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Bonsai: Gradient-free Graph Distillation for Node Classification はコメントを受け付けていません

PyGen: A Collaborative Human-AI Approach to Python Package Creation

要約

自動化と革新の原則は、現代の科学技術の進歩の基礎的な要素として機能します。
ここでは、研究者、技術者、愛好家がPythonで書かれたコアで使用可能なソフトウェアツールとして抽象的なアイデアを実現できるように設計された自動化プラットフォームであるPygenを紹介します。
ピーゲンは、自己回帰の大手言語モデルの計り知れない力を活用して、アイデア、イテレーション、イノベーションプロセス中に人間の創造性を増強します。
最先端の言語モデルとオープンソースコード生成テクノロジーを組み合わせることにより、Pygenはツール開発の手動オーバーヘッドを大幅に削減しました。
ユーザープロンプトから、Pygenは、コンセプトからパッケージの生成とドキュメントまで、完全なワークフローのためにPythonパッケージを自動的に生成します。
私たちの作品の調査結果は、Pygenがさまざまな専門的な目的で回復力、モジュール式、および十分に文書化されたパッケージの作成を可能にすることにより、研究者の生産性を大幅に向上させることを示しています。
ユーザーのパッケージの説明をますます具体的かつ実用的に蒸留するために、迅速な強化アプローチを採用しています。
本質的に自由回答形式のタスクである一方で、結果セクションで詳細な結果を使用して、人間の評価、LLMベースの評価、およびCodebleuを使用して、生成されたパッケージとドキュメントを評価しました。
さらに、結果を文書化し、制限を分析し、それらを軽減するための戦略を提案しました。
Pygenは、倫理的自動化のビジョンであり、包括性、アクセシビリティ、および共同開発を促進するフレームワークです。
このプロジェクトは、インテリジェントエージェントが人間と協力して科学的および技術開発を大幅に改善するツールを作成するための大規模な取り組みの始まりを示しています。
私たちのコードと生成された例は、[https://github.com/gitssaikat/pygen]でオープンソースを受けています。

要約(オリジナル)

The principles of automation and innovation serve as foundational elements for advancement in contemporary science and technology. Here, we introduce Pygen, an automation platform designed to empower researchers, technologists, and hobbyists to bring abstract ideas to life as core, usable software tools written in Python. Pygen leverages the immense power of autoregressive large language models to augment human creativity during the ideation, iteration, and innovation process. By combining state-of-the-art language models with open-source code generation technologies, Pygen has significantly reduced the manual overhead of tool development. From a user prompt, Pygen automatically generates Python packages for a complete workflow from concept to package generation and documentation. The findings of our work show that Pygen considerably enhances the researcher’s productivity by enabling the creation of resilient, modular, and well-documented packages for various specialized purposes. We employ a prompt enhancement approach to distill the user’s package description into increasingly specific and actionable. While being inherently an open-ended task, we have evaluated the generated packages and the documentation using Human Evaluation, LLM-based evaluation, and CodeBLEU, with detailed results in the results section. Furthermore, we documented our results, analyzed the limitations, and suggested strategies to alleviate them. Pygen is our vision of ethical automation, a framework that promotes inclusivity, accessibility, and collaborative development. This project marks the beginning of a large-scale effort towards creating tools where intelligent agents collaborate with humans to improve scientific and technological development substantially. Our code and generated examples are open-sourced at [https://github.com/GitsSaikat/Pygen]

arxiv情報

著者 Saikat Barua,Mostafizur Rahman,Md Jafor Sadek,Rafiul Islam,Shehnaz Khaled,Md. Shohrab Hossain
発行日 2025-03-05 17:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | PyGen: A Collaborative Human-AI Approach to Python Package Creation はコメントを受け付けていません

ILLC: Iterative Layer-by-Layer Compression for Enhancing Structural Faithfulness in SpArX

要約

説明可能な人工知能(XAI)の分野では、隠されたノードを議論として解釈することにより、深い神経ネットワークの内部推論プロセスをより透明な方法で表現するために、論争的なXAIアプローチが提案されています。
ただし、層の数が増えると、既存の圧縮方法が一度にすべての層を単純化するため、蓄積された情報の損失が高くなります。
これを補うために、各層が個別に圧縮され、次のレイヤーの還元誤差が直ちに補償され、モデルの全体的な入出力と構造的忠実度を改善する反復層ごとの圧縮技術を提案します。
乳がん診断データセットの実験は、従来の圧縮と比較して、この方法が入出力と構造的不誠実さを減らし、議論の説明スキームでより一貫した攻撃サポート関係を維持することを示しています。
これは、歪みなしで内部推論ロジックを伝えながら、複雑なMLPモデルをよりコンパクトにする新しい方法を提供するため、重要です。

要約(オリジナル)

In the field of Explainable Artificial Intelligence (XAI), argumentative XAI approaches have been proposed to represent the internal reasoning process of deep neural networks in a more transparent way by interpreting hidden nodes as arguements. However, as the number of layers increases, existing compression methods simplify all layers at once, which lead to high accumulative information loss. To compensate for this, we propose an iterative layer-by-layer compression technique in which each layer is compressed separately and the reduction error in the next layer is immediately compensated for, thereby improving the overall input-output and structural fidelity of the model. Experiments on the Breast Cancer Diagnosis dataset show that, compared to traditional compression, the method reduces input-output and structural unfaithfulness, and maintains a more consistent attack-support relationship in the Argumentative Explanation scheme. This is significant because it provides a new way to make complex MLP models more compact while still conveying their internal inference logic without distortion.

arxiv情報

著者 Ungsik Kim
発行日 2025-03-05 17:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | ILLC: Iterative Layer-by-Layer Compression for Enhancing Structural Faithfulness in SpArX はコメントを受け付けていません

DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory

要約

大規模な言語モデル(LLMS)は、機械翻訳(MT)の妥当な品質改善を達成しました。
ただし、MT-LLMに関する現在のほとんどの研究は、ドキュメント全体を処理する際に翻訳の一貫性と精度を維持する上で依然として重要な課題に直面しています。
この論文では、これらの制限を克服するために設計されたドキュメントレベルの翻訳エージェントであるDeltaを紹介します。
Deltaは、補助LLMベースのコンポーネントによって継続的に取得および更新される、固有名詞レコード、バイリンガルの要約、長期メモリ、短期メモリなど、さまざまな粒度とスパンにわたって情報を保存するマルチレベルのメモリ構造を特徴としています。
実験結果は、デルタが4つのオープン/クローズドソースLLMと2つの代表的なドキュメント翻訳データセットにわたる翻訳の一貫性と品質の点で強力なベースラインを大幅に上回り、一貫性スコアを最大4.58パーセントポイント増加し、彗星スコアを最大3.16ポイント増加させることを示しています。
Deltaは文ごとの翻訳戦略を採用しており、文の省略を確保し、主流の方法と比較してメモリ効率の高いソリューションを提供します。
さらに、Deltaは代名詞とコンテキスト依存の翻訳精度を向上させ、エージェントの要約コンポーネントもクエリベースの要約タスクのツールとして有望です。
アプローチのコードとデータは、https://github.com/yutongwang1216/docmtagentでリリースされます。

要約(オリジナル)

Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun and context-dependent translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. The code and data of our approach are released at https://github.com/YutongWang1216/DocMTAgent.

arxiv情報

著者 Yutong Wang,Jiali Zeng,Xuebo Liu,Derek F. Wong,Fandong Meng,Jie Zhou,Min Zhang
発行日 2025-03-05 17:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory はコメントを受け付けていません

Curating Demonstrations using Online Experience

要約

多くのロボットデモンストレーションデータセットには、さまざまな品質の不均一なデモンストレーションが含まれています。
この不均一性は、ポリシーのトレーニングに役立つ可能性がありますが、最終的な模倣学習目標で使用するとロボットのパフォーマンスを妨げる可能性があります。
特に、データの一部の戦略は他の戦略よりも信頼性が低いか、データに過小評価されている可能性があり、テスト時にそのような戦略がサンプリングされた場合、パフォーマンスが低下します。
さらに、このような信頼性の低いまたは過小評価されている戦略は、人々が識別することでさえ困難であり、デモンストレーションデータセットをふるいにかけることは時間がかかり、費用がかかります。
一方、そのようなデモンストレーションで訓練された場合のポリシーパフォーマンスは、さまざまな戦略の信頼性を反映できます。
したがって、オンラインロボットエクスペリエンス(デモスコア)に基づいて、ロボットが自己選択することを提案します。
より具体的には、分類器をトレーニングおよび交差して、成功したポリシーロールアウトを失敗したものから識別し、分類器を使用して異種のデモデータセットをフィルタリングします。
シミュレーションと現実の世界での実験は、デモスコアが手動のキュレーションなしで最適ではないデモを効果的に特定できることを示しています。
特に、デモスコアは、すべての元のデモンストレーションで訓練された基本ポリシーと比較して、結果のポリシーで15〜35%以上の絶対成功率を達成しています。

要約(オリジナル)

Many robot demonstration datasets contain heterogeneous demonstrations of varying quality. This heterogeneity may benefit policy pre-training, but can hinder robot performance when used with a final imitation learning objective. In particular, some strategies in the data may be less reliable than others or may be underrepresented in the data, leading to poor performance when such strategies are sampled at test time. Moreover, such unreliable or underrepresented strategies can be difficult even for people to discern, and sifting through demonstration datasets is time-consuming and costly. On the other hand, policy performance when trained on such demonstrations can reflect the reliability of different strategies. We thus propose for robots to self-curate based on online robot experience (Demo-SCORE). More specifically, we train and cross-validate a classifier to discern successful policy roll-outs from unsuccessful ones and use the classifier to filter heterogeneous demonstration datasets. Our experiments in simulation and the real world show that Demo-SCORE can effectively identify suboptimal demonstrations without manual curation. Notably, Demo-SCORE achieves over 15-35% higher absolute success rate in the resulting policy compared to the base policy trained with all original demonstrations.

arxiv情報

著者 Annie S. Chen,Alec M. Lessing,Yuejiang Liu,Chelsea Finn
発行日 2025-03-05 17:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Curating Demonstrations using Online Experience はコメントを受け付けていません

Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies

要約

深い強化学習は効果的であることが示されていますが、モデルのブラックボックスの性質は、政策解釈を直接するための障壁を提示します。
この問題に対処するために、エンドツーエンドのポリシー学習のために、神経DNF-MTと呼ばれる神経腫瘍アプローチを提案します。
ニューラルDNF-MTモデルの微分可能性により、トレーニングのために深い俳優criticアルゴリズムを使用することができます。
同時に、そのアーキテクチャは、訓練されたモデルを標準的な(二価または確率的)ロジックプログラムとして表現する解釈可能なポリシーに直接翻訳できるように設計されています。
さらに、追加の層を含めることができ、複雑な観測から抽象的特徴を抽出し、述語発明の形として機能します。
ロジック表現は非常に解釈可能であり、決定論的ポリシーの二価表現をどのように編集し、神経モデルに組み込むことができるかを示し、手動の介入と学習ポリシーの適応を促進します。
さまざまな形態の観測からの決定論的または確率的行動を学習する必要があるさまざまなタスクに関するアプローチを評価します。
私たちの経験的結果は、私たちのニューラルDNF-MTモデルが、解釈可能なポリシーを提供しながら、競合するブラックボックス方法のレベルで実行されることを示しています。

要約(オリジナル)

Although deep reinforcement learning has been shown to be effective, the model’s black-box nature presents barriers to direct policy interpretation. To address this problem, we propose a neuro-symbolic approach called neural DNF-MT for end-to-end policy learning. The differentiable nature of the neural DNF-MT model enables the use of deep actor-critic algorithms for training. At the same time, its architecture is designed so that trained models can be directly translated into interpretable policies expressed as standard (bivalent or probabilistic) logic programs. Moreover, additional layers can be included to extract abstract features from complex observations, acting as a form of predicate invention. The logic representations are highly interpretable, and we show how the bivalent representations of deterministic policies can be edited and incorporated back into a neural model, facilitating manual intervention and adaptation of learned policies. We evaluate our approach on a range of tasks requiring learning deterministic or stochastic behaviours from various forms of observations. Our empirical results show that our neural DNF-MT model performs at the level of competing black-box methods whilst providing interpretable policies.

arxiv情報

著者 Kexin Gu Baugh,Luke Dickens,Alessandra Russo
発行日 2025-03-05 18:04:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.LO | Neural DNF-MT: A Neuro-symbolic Approach for Learning Interpretable and Editable Policies はコメントを受け付けていません