LUCIFER: Language Understanding and Context-Infused Framework for Exploration and Behavior Refinement

要約

動的環境では、既存の環境知識の急速な陳腐化は、エージェントの内部モデルとその運用コンテキストの進化する現実との間にギャップを生み出します。
以前の環境評価と更新された環境評価のこの格差は、自律的な意思決定の有効性を根本的に制限します。
このギャップを埋めるために、直接的なリアルタイムの観察を通じて洞察を自然に蓄積する人間のドメインの利害関係者の文脈的バイアスは不可欠になります。
ただし、自律システムの実用的なインテリジェンスに微妙な、コンテキストが豊富な入力を翻訳することは、依然としてオープンな課題です。
これに対処するために、階層的な意思決定アーキテクチャを強化学習(RL)および大手言語モデル(LLM)と統一されたシステムに統合するドメインと存在するフレームワークであるLucifer(言語理解とコンテキストに浸透したフレームワーク)を提案します。
このアーキテクチャは、人間が複雑なタスクを分解する方法を反映しており、高レベルのプランナーが特殊なサブエージェントを調整できるようにします。
LLMが単一の役割に限定されている従来のアプリケーションとは異なり、Luciferはそれらを2つの相乗的役割に統合します。コンテキスト抽出者として、エージェントの学習プロセスとのLLM由来の洞察を介した注意空間メカニズムを介して意思決定に影響を与えるドメインアウェア表現への口頭の利害関係者の入力を構成し、エージェントの選択プロセスを調整するためのゼロショットの視点を調整するためのゼロショットの検査施設を調整します。
両方の役割でさまざまなLLMをベンチマークし、ルシファーが探査効率と決定の質を向上させ、フラットで目標条件のポリシーを上回ることを実証します。
私たちの調査結果は、自律システムが運用上の成功のために人間の文脈的知識を活用するコンテキスト主導の意思決定の可能性を示しています。

要約(オリジナル)

In dynamic environments, the rapid obsolescence of pre-existing environmental knowledge creates a gap between an agent’s internal model and the evolving reality of its operational context. This disparity between prior and updated environmental valuations fundamentally limits the effectiveness of autonomous decision-making. To bridge this gap, the contextual bias of human domain stakeholders, who naturally accumulate insights through direct, real-time observation, becomes indispensable. However, translating their nuanced, and context-rich input into actionable intelligence for autonomous systems remains an open challenge. To address this, we propose LUCIFER (Language Understanding and Context-Infused Framework for Exploration and Behavior Refinement), a domain-agnostic framework that integrates a hierarchical decision-making architecture with reinforcement learning (RL) and large language models (LLMs) into a unified system. This architecture mirrors how humans decompose complex tasks, enabling a high-level planner to coordinate specialised sub-agents, each focused on distinct objectives and temporally interdependent actions. Unlike traditional applications where LLMs are limited to single role, LUCIFER integrates them in two synergistic roles: as context extractors, structuring verbal stakeholder input into domain-aware representations that influence decision-making through an attention space mechanism aligning LLM-derived insights with the agent’s learning process, and as zero-shot exploration facilitators guiding the agent’s action selection process during exploration. We benchmark various LLMs in both roles and demonstrate that LUCIFER improves exploration efficiency and decision quality, outperforming flat, goal-conditioned policies. Our findings show the potential of context-driven decision-making, where autonomous systems leverage human contextual knowledge for operational success.

arxiv情報

著者 Dimitris Panagopoulos,Adolfo Perrusquia,Weisi Guo
発行日 2025-06-09 16:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SY, eess.SY | LUCIFER: Language Understanding and Context-Infused Framework for Exploration and Behavior Refinement はコメントを受け付けていません

Uncovering the Functional Roles of Nonlinearity in Memory

要約

メモリと長距離の時間処理は、自然言語処理、時系列予測、音声認識、および制御全体のシーケンスモデリングタスクのコア要件です。
非線形の再発は、このようなメカニズムを有効にするために不可欠であると長い間見られてきましたが、最近の研究では、線形ダイナミクスで十分である可能性があることが示唆されています。
この研究では、パフォーマンスの比較を超えて、再発性ネットワークにおける非線形性の機能的役割を体系的に分析します。これは、計算上必要なときとそれが可能にするメカニズムの両方を識別します。
柔軟なモデリングツールとメモリの内部メカニズムへのプローブの両方として、ほぼ線形再発性ニューラルネットワーク(AL-RNNS)を使用します。
さまざまな古典的なシーケンスモデリングタスクと現実世界の刺激選択タスクにわたって、最小の非線形性は十分であるだけでなく、最適であり、完全に非線形または線形の対応物よりもシンプルで堅牢で、より解釈可能なモデルを生成することがわかります。
我々の結果は、非線形性を選択的に導入するための原則的なフレームワークを提供し、動的システム理論を橋渡しし、再発性ニューラルネットワークにおける長距離メモリの機能的要求と構造化された計算を橋渡しし、人工ニューラルシステムと生物学的ニューラルシステムの両方に影響を与えます。

要約(オリジナル)

Memory and long-range temporal processing are core requirements for sequence modeling tasks across natural language processing, time-series forecasting, speech recognition, and control. While nonlinear recurrence has long been viewed as essential for enabling such mechanisms, recent work suggests that linear dynamics may often suffice. In this study, we go beyond performance comparisons to systematically dissect the functional role of nonlinearity in recurrent networks–identifying both when it is computationally necessary, and what mechanisms it enables. We use Almost Linear Recurrent Neural Networks (AL-RNNs), which allow fine-grained control over nonlinearity, as both a flexible modeling tool and a probe into the internal mechanisms of memory. Across a range of classic sequence modeling tasks and a real-world stimulus selection task, we find that minimal nonlinearity is not only sufficient but often optimal, yielding models that are simpler, more robust, and more interpretable than their fully nonlinear or linear counterparts. Our results provide a principled framework for selectively introducing nonlinearity, bridging dynamical systems theory with the functional demands of long-range memory and structured computation in recurrent neural networks, with implications for both artificial and biological neural systems.

arxiv情報

著者 Manuel Brenner,Georgia Koppe
発行日 2025-06-09 16:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, nlin.CD, physics.comp-ph | Uncovering the Functional Roles of Nonlinearity in Memory はコメントを受け付けていません

Solving Inequality Proofs with Large Language Models

要約

不平等の証明、多様な科学的および数学的分野にわたる重要な、厳しい境界や戦略的定理アプリケーションの発見などの高度な推論スキルをテストします。
これにより、大規模な言語モデル(LLMS)に明確で要求の厳しいフロンティアになり、一般的な数学的な問題解決を超えた洞察を提供します。
この領域の進歩は、しばしば希少性、合成、または厳格に形式的な既存のデータセットによって妨げられています。
これに対処し、非公式でありながら検証可能なタスクの定式化を提案し、2つの自動的にチェック可能なサブタスクの2つの自動的なチェック可能なサブタスクに証明する不平等を再構築します。
これに基づいて、段階的なソリューションと定理注釈が濃縮されたテストセットやトレーニングコーパスを含む、オリンピックレベルの不平等の専門家であるデータセットであるIneqmathをリリースします。
また、新しいLLMとしてのJudge As-Judge評価フレームワークを開発し、最終回答の裁判官と、一般的な推論の欠陥を検出するように設計された4つの段階的な裁判官を組み合わせています。
INEQMATHでの29の主要なLLMの体系的な評価は、驚くべき現実を明らかにしています。O1のようなトップモデルでさえ、段階的な精査では全体的な精度が10%未満です。
これは、最終的な回答の等価のみを考慮して、精度から最大65.5%の低下です。
この矛盾は、単に答えを見つけることと厳密な証拠を構築することとの間に、脆弱な演ductive的なチェーンと現在のLLMの重要なギャップを暴露します。
モデルサイズのスケーリングとテスト時間計算の増加により、全体的な証明の正確性が限られています。
代わりに、私たちの調査結果は、定理誘導の推論や自己修正などの有望な研究方向を強調しています。
コードとデータはhttps://ineqmath.github.io/で入手できます。

要約(オリジナル)

Inequality proving, crucial across diverse scientific and mathematical fields, tests advanced reasoning skills such as discovering tight bounds and strategic theorem application. This makes it a distinct, demanding frontier for large language models (LLMs), offering insights beyond general mathematical problem-solving. Progress in this area is hampered by existing datasets that are often scarce, synthetic, or rigidly formal. We address this by proposing an informal yet verifiable task formulation, recasting inequality proving into two automatically checkable subtasks: bound estimation and relation prediction. Building on this, we release IneqMath, an expert-curated dataset of Olympiad-level inequalities, including a test set and training corpus enriched with step-wise solutions and theorem annotations. We also develop a novel LLM-as-judge evaluation framework, combining a final-answer judge with four step-wise judges designed to detect common reasoning flaws. A systematic evaluation of 29 leading LLMs on IneqMath reveals a surprising reality: even top models like o1 achieve less than 10% overall accuracy under step-wise scrutiny; this is a drop of up to 65.5% from their accuracy considering only final answer equivalence. This discrepancy exposes fragile deductive chains and a critical gap for current LLMs between merely finding an answer and constructing a rigorous proof. Scaling model size and increasing test-time computation yield limited gains in overall proof correctness. Instead, our findings highlight promising research directions such as theorem-guided reasoning and self-refinement. Code and data are available at https://ineqmath.github.io/.

arxiv情報

著者 Jiayi Sheng,Luna Lyu,Jikai Jin,Tony Xia,Alex Gu,James Zou,Pan Lu
発行日 2025-06-09 16:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Solving Inequality Proofs with Large Language Models はコメントを受け付けていません

Predicting Bad Goods Risk Scores with ARIMA Time Series: A Novel Risk Assessment Approach

要約

サプライチェーンの複雑さの増加と、欠陥または標準以下の商品(不良品)に関連するコストの上昇は、リスクを軽減し、運用効率を高めるための高度な予測方法論の緊急の必要性を強調しています。
この研究では、時系列ARIMA(自己回帰統合移動平均)モデルを、時系列予測後に悪い商品を計算するために特別に設計された独自の処方と統合する新しいフレームワークを提示します。
販売、リターン、容量などの履歴データパターンを活用することにより、モデルは潜在的な品質障害を予測し、積極的な意思決定を可能にします。
Arimaは、時系列データの時間的傾向をキャプチャするために採用されていますが、新しく開発されたフォーミュラは、欠陥の可能性と影響をより正確に定量化します。
有機ビール-G 1リットルの2022-2024に及ぶデータセットで検証された実験結果は、提案された方法が、予測の精度とリスク評価の両方で、指数関数的な平滑化やホルトウィンターズなどの従来の統計モデルよりも優れていることを示しています。
この研究は、サプライチェーンの品質管理における時系列予測、ARIMA、およびリスク管理を橋渡しすることにより、予測分析の分野を進め、悪い商品による損失を最小限に抑えるためのスケーラブルで実用的なソリューションを提供します。

要約(オリジナル)

The increasing complexity of supply chains and the rising costs associated with defective or substandard goods (bad goods) highlight the urgent need for advanced predictive methodologies to mitigate risks and enhance operational efficiency. This research presents a novel framework that integrates Time Series ARIMA (AutoRegressive Integrated Moving Average) models with a proprietary formula specifically designed to calculate bad goods after time series forecasting. By leveraging historical data patterns, including sales, returns, and capacity, the model forecasts potential quality failures, enabling proactive decision-making. ARIMA is employed to capture temporal trends in time series data, while the newly developed formula quantifies the likelihood and impact of defects with greater precision. Experimental results, validated on a dataset spanning 2022-2024 for Organic Beer-G 1 Liter, demonstrate that the proposed method outperforms traditional statistical models, such as Exponential Smoothing and Holt-Winters, in both prediction accuracy and risk evaluation. This study advances the field of predictive analytics by bridging time series forecasting, ARIMA, and risk management in supply chain quality control, offering a scalable and practical solution for minimizing losses due to bad goods.

arxiv情報

著者 Bishwajit Prasad Gond
発行日 2025-06-09 16:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.AP | Predicting Bad Goods Risk Scores with ARIMA Time Series: A Novel Risk Assessment Approach はコメントを受け付けていません

Diffusion of Responsibility in Collective Decision Making

要約

「責任の拡散」という用語は、複数のエージェントが結果に対する責任を共有し、個々の説明責任を曖昧にする状況を指します。
このペーパーでは、集合的な意思決定メカニズムの文脈において、この頻繁に望ましくない現象を調べます。
作業は、2人のエージェントによって決定が下された場合、責任の拡散を避ける唯一の方法は、1人のエージェントが「独裁者」として行動し、決定を一方的に行うことであることを示しています。
2人以上のエージェントを持つシナリオでは、拡散を含まないメカニズムは、エージェントが一方的な決定を下すために単一のエージェントを選出する「選出された独裁」です。
技術的な結果は、意思決定メカニズムの二項化を定義し、二項化が責任関連の特性を維持し、最小の二項メカニズムの結果を確立することを証明することによって得られます。

要約(オリジナル)

The term ‘diffusion of responsibility” refers to situations in which multiple agents share responsibility for an outcome, obscuring individual accountability. This paper examines this frequently undesirable phenomenon in the context of collective decision-making mechanisms. The work shows that if a decision is made by two agents, then the only way to avoid diffusion of responsibility is for one agent to act as a ‘dictator”, making the decision unilaterally. In scenarios with more than two agents, any diffusion-free mechanism is an ‘elected dictatorship” where the agents elect a single agent to make a unilateral decision. The technical results are obtained by defining a bisimulation of decision-making mechanisms, proving that bisimulation preserves responsibility-related properties, and establishing the results for a smallest bisimular mechanism.

arxiv情報

著者 Pavel Naumov,Jia Tao
発行日 2025-06-09 16:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA | Diffusion of Responsibility in Collective Decision Making はコメントを受け付けていません

Gradients: When Markets Meet Fine-tuning — A Distributed Approach to Model Optimisation

要約

基礎モデルの微調整は基本的な課題に直面しています:既存の自動車プラットフォームは、実行可能なハイパーパラメーター構成のほんの一部のみを探求する単一の最適化戦略に依存しています。
このホワイトペーパーでは、ハイパーパラメーターの最適化を独立した鉱山労働者が最適な構成を発見するために競争する競争力のある市場に変換する分散型の自動車プラットフォームである勾配を紹介します。
経済的インセンティブは、個々の探査を集合的な最適化の目標に合わせて整合し、メソッドを一元化したハイパーパラメーター領域の体系的な調査を逃します。
多様なモデルアーキテクチャ(70m〜70bパラメーター)とタスクタイプにまたがる180の制御された実験でアプローチを評価します。
グラデーションは、ハギングフェイスオートテレインに対して82.8 \%の勝率を達成し、100 \%はgooghting、databricks、およびgoogleクラウドに対して100%を達成し、それぞれ11.8 \%と42.1 \%の平均改善があります。
複雑な推論と検索タスクは、30-40 \%の特に強力な利益を示し、拡散モデルは人固有の生成の23.4 \%の改善を達成します。
これらの結果は、競争力のある経済的に主導のアプローチが、自動車を一貫して一貫して見逃した優れた構成を体系的に発見できることを示しています。

要約(オリジナル)

Foundation model fine-tuning faces a fundamental challenge: existing AutoML platforms rely on single optimisation strategies that explore only a fraction of viable hyperparameter configurations. In this white paper, We introduce Gradients, a decentralised AutoML platform that transforms hyperparameter optimisation into a competitive marketplace where independent miners compete to discover optimal configurations. Economic incentives align individual exploration with collective optimisation goals, driving systematic investigation of hyperparameter regions that centralised methods miss. We evaluate our approach across 180 controlled experiments spanning diverse model architectures (70M to 70B parameters) and task types. Gradients achieves an 82.8\% win rate against HuggingFace AutoTrain and 100\% against TogetherAI, Databricks, and Google Cloud, with mean improvements of 11.8\% and 42.1\% respectively. Complex reasoning and retrieval tasks show particularly strong gains of 30-40\%, whilst diffusion models achieve 23.4\% improvements for person-specific generation. These results demonstrate that competitive, economically-driven approaches can systematically discover superior configurations that centralised AutoML consistently miss.

arxiv情報

著者 Christopher Subia-Waud
発行日 2025-06-09 17:00:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Gradients: When Markets Meet Fine-tuning — A Distributed Approach to Model Optimisation はコメントを受け付けていません

ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols

要約

大規模な言語モデル(LLM)の最近の進歩により、汎用プログラミング言語のコードを生成する際に有望な機能が示されています。
対照的に、特に合成可能で機能的に正しいデザインを生成するためのハードウェアの説明言語に対する適用性は、依存していないままです。
SystemVerilogなどのHDLは論理指向であり、タイミングセマンティクス、並行性、合成可能性の制約を厳密に遵守します。
さらに、HDLベースの設計フローには、テストベンチ開発、アサーションベースの検証、タイミング閉鎖、オンチップ通信のためのプロトコルレベルの統合など、構造コード生成を超えた幅広いタスクが含まれます。
私たちの論文の目的は、組み込みおよびSystem-on-Chip(SOC)アーキテクチャのコアコンポーネントである標準通信プロトコルのシステムヴェリログ実装の生成における最先端のLLMの機能を分析することです。
このペーパーでは、広く使用されている4つのプロトコル、SPI、I2C、UART、およびAXIをターゲットにする最初のベンチマークスイートを紹介します。
さまざまなレベルの設計抽象化と迅速な特異性をキャプチャするコード生成タスクを定義します。
生成された設計は、波形シミュレーションとテストベンチを介して構文の正確性、合成化可能性、および機能的忠実度について評価されます。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have shown promising capabilities in generating code for general-purpose programming languages. In contrast, their applicability for hardware description languages, particularly for generating synthesizable and functionally correct designs, remains significantly underexplored. HDLs such as SystemVerilog are logic-oriented and demand strict adherence to timing semantics, concurrency, and synthesizability constraints. Moreover, HDL-based design flows encompass a broad set of tasks beyond structural code generation, including testbench development, assertion-based verification, timing closure, and protocol-level integration for on-chip communication. The objective of our paper is to analyze the capabilities of state-of-the-art LLMs in generating SystemVerilog implementations of standard communication protocols, a core component of embedded and System-on-Chip (SoC) architectures. This paper introduces the first benchmark suite targeting four widely used protocols: SPI, I2C, UART, and AXI. We define code generation tasks that capture varying levels of design abstraction and prompt specificity. The generated designs are assessed for syntactic correctness, synthesizability, and functional fidelity via waveform simulation and test benches.

arxiv情報

著者 Arnav Sheth,Ivaxi Sheth,Mario Fritz
発行日 2025-06-09 17:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CL | ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols はコメントを受け付けていません

Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization

要約

簡単なものからハードへのタスクに関する一般化は、言語モデル(LLMS)をプロファイルするために重要ですが、広範囲の複雑さにわたる各問題の微細な困難な注釈を持つデータセットはまだ空白です。
この制限に対処することを目指して、数学やプログラミングの問題、チェスパズル、推論質問など、さまざまなドメインにまたがる6つのベンチマークデータセットの一貫してフォーマットされたコレクションであるEasy2Hard-Benchを提示します。
これらのデータセット内の各問題には、数値難易度スコアが注釈されます。
問題の難しさを体系的に推定するために、現実世界の人間または著名なリーダーボードのLLMによる各問題に対する試みに関する豊富なパフォーマンスデータを収集します。
豊富なパフォーマンスデータを活用すると、アイテム応答理論(IRT)やGlicko-2モデルなどの定評のある難易度ランキングシステムを適用して、数値難易度スコアを問題に均一に割り当てます。
さらに、Easy2Hardベンチのデータセットは、より高い割合の困難な問題によって以前のコレクションと区別します。
最先端のLLMSを6つの広範な実験を通じて、LLM一般化の将来の研究を促すことを目的として、さまざまなレベルの難易度にわたるパフォーマンスと一般化能力の包括的な分析を提供します。
データセットは、https://huggingface.co/datasets/furonghuang-lab/easy2hard-benchで入手できます。

要約(オリジナル)

While generalization over tasks from easy to hard is crucial to profile language models (LLMs), the datasets with fine-grained difficulty annotations for each problem across a broad range of complexity are still blank. Aiming to address this limitation, we present Easy2Hard-Bench, a consistently formatted collection of 6 benchmark datasets spanning various domains, such as mathematics and programming problems, chess puzzles, and reasoning questions. Each problem within these datasets is annotated with numerical difficulty scores. To systematically estimate problem difficulties, we collect abundant performance data on attempts to each problem by humans in the real world or LLMs on the prominent leaderboard. Leveraging the rich performance data, we apply well-established difficulty ranking systems, such as Item Response Theory (IRT) and Glicko-2 models, to uniformly assign numerical difficulty scores to problems. Moreover, datasets in Easy2Hard-Bench distinguish themselves from previous collections by a higher proportion of challenging problems. Through extensive experiments with six state-of-the-art LLMs, we provide a comprehensive analysis of their performance and generalization capabilities across varying levels of difficulty, with the aim of inspiring future research in LLM generalization. The datasets are available at https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench.

arxiv情報

著者 Mucong Ding,Chenghao Deng,Jocelyn Choo,Zichu Wu,Aakriti Agrawal,Avi Schwarzschild,Tianyi Zhou,Tom Goldstein,John Langford,Anima Anandkumar,Furong Huang
発行日 2025-06-09 17:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization はコメントを受け付けていません

Toward Greater Autonomy in Materials Discovery Agents: Unifying Planning, Physics, and Scientists

要約

私たちは、クリスタル材料の発見のための自律性を高める言語エージェントを設計することを目指しています。
既存の研究のほとんどは、事前定義されたワークフロー内で特定のタスクを実行するようエージェントを制限していますが、高レベルの目標と科学者の直感を考慮して、ワークフロー計画を自動化することを目指しています。
この目的のために、マップとして知られる計画、物理学、および科学者を統一する材料エージェントを提案します。
マップは、ワークフロープランナー、ツールコードジェネレーター、科学的メディエーターで構成されています。
ワークフロープランナーは、大規模な言語モデル(LLM)を使用して、構造化されたマルチステップワークフローを生成します。
ツールコードジェネレーターは、物理学をエンコードするフォースフィールドファンデーションモデルを呼び出すなど、さまざまなタスクの実行可能ファイルPythonコードを合成します。
科学的メディエーターは、通信を調整し、科学者のフィードバックを促進し、エラーの反射と回復により堅牢性を保証します。
計画、物理学、および科学者を統合することにより、Mappsは、MP-20データで評価されたときに以前の生成モデルと比較して、安定性、一意性、および斬新性の5倍の改善を実現し、柔軟で信頼できる材料の発見をより強力にします。
多様なタスク全体で広範な実験を提供して、マップが自律材料の発見のための有望なフレームワークであることを示しています。

要約(オリジナル)

We aim at designing language agents with greater autonomy for crystal materials discovery. While most of existing studies restrict the agents to perform specific tasks within predefined workflows, we aim to automate workflow planning given high-level goals and scientist intuition. To this end, we propose Materials Agent unifying Planning, Physics, and Scientists, known as MAPPS. MAPPS consists of a Workflow Planner, a Tool Code Generator, and a Scientific Mediator. The Workflow Planner uses large language models (LLMs) to generate structured and multi-step workflows. The Tool Code Generator synthesizes executable Python code for various tasks, including invoking a force field foundation model that encodes physics. The Scientific Mediator coordinates communications, facilitates scientist feedback, and ensures robustness through error reflection and recovery. By unifying planning, physics, and scientists, MAPPS enables flexible and reliable materials discovery with greater autonomy, achieving a five-fold improvement in stability, uniqueness, and novelty rates compared with prior generative models when evaluated on the MP-20 data. We provide extensive experiments across diverse tasks to show that MAPPS is a promising framework for autonomous materials discovery.

arxiv情報

著者 Lianhao Zhou,Hongyi Ling,Keqiang Yan,Kaiji Zhao,Xiaoning Qian,Raymundo Arróyave,Xiaofeng Qian,Shuiwang Ji
発行日 2025-06-09 17:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.AI, physics.comp-ph | Toward Greater Autonomy in Materials Discovery Agents: Unifying Planning, Physics, and Scientists はコメントを受け付けていません

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

要約

最近、ビルディングビジョン言語アクション(VLA)モデルの事前訓練を受けたビジョン言語モデル(VLM)を活用することは、効果的なロボット操作学習に対する有望なアプローチとして浮上しました。
ただし、アクション予測のためにVLMSに3D信号を組み込む方法はほとんどなく、3Dデータに固有の空間構造を完全に活用せず、サンプル効率が低くなります。
このホワイトペーパーでは、(1)3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを確保する新しい3D VLAモデルであるBridgeVLAを紹介し、(2)アクション予測のために2Dヒートマップを使用し、一貫した2D画像スペース内の入力と出力スペースを統合します。
さらに、下流のポリシー学習の前に2Dヒートマップを予測する機能をVLMバックボーンに装備するスケーラブルなトレーニング方法を提案します。
広範な実験は、提案された方法が3D操作を効率的かつ効果的に学ぶことができることを示しています。
Bridgevlaは、3つのシミュレーションベンチマークにわたって最先端のベースラインメソッドを上回ります。
RLBenchでは、平均成功率が81.4%から88.2%に改善されます。
コロッセオでは、一般化に挑戦する状況で大幅に優れたパフォーマンスを示し、平均成功率を56.7%から64.0%に引き上げます。
Gembenchでは、平均成功率の観点から、すべての比較ベースライン方法を上回ります。
Real-Robot実験では、Bridgevlaは平均して最先端のベースライン方法を32%上回ります。
視覚障害や目に見えない指示を含む、複数の分散式設定で堅牢に一般化します。
驚くべきことに、タスクごとに3つの軌跡しかない10以上のタスクで96.8%の成功率を達成することができ、その並外れたサンプル効率を強調しています。
プロジェクトWebサイト:https://bridgevla.github.io/

要約(オリジナル)

Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/

arxiv情報

著者 Peiyan Li,Yixiang Chen,Hongtao Wu,Xiao Ma,Xiangnan Wu,Yan Huang,Liang Wang,Tao Kong,Tieniu Tan
発行日 2025-06-09 17:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models はコメントを受け付けていません