Physics-Constrained Flow Matching: Sampling Generative Models with Hard Constraints

要約

深い生成モデルは最近、部分微分方程式(PDE)によって支配された物理システムに適用されており、スケーラブルなシミュレーションと不確実性認識の推論を提供しています。
ただし、保全法(線形および非線形)や物理的な一貫性などの物理的制約を実施することは依然として困難です。
既存の方法は、多くの場合、厳しい制約を保証できないソフトペナルティまたは建築バイアスに依存しています。
この作業では、物理学が制約されているフローマッチング(PCFM)を提案します。これは、前提条件のフローベースの生成モデルに任意の非線形制約を強制するゼロショット推論フレームワークです。
PCFMは、学習された流れと満足のいく物理的制約に合わせたまま、中間溶液状態に適用される物理ベースの修正を通じてサンプリングプロセスを継続的にガイドします。
経験的には、PCFMは、衝撃、不連続性、鋭い特徴を含むPDEの範囲で制約のないベースラインと制約の両方のベースラインを上回り、最終的なソリューションでの正確な制約満足度を確保します。
私たちの方法は、科学的および一般的な生成モデルの両方、特に制約満足度が不可欠なアプリケーションで、ハード制約を強制するための一般的なフレームワークを提供します。

要約(オリジナル)

Deep generative models have recently been applied to physical systems governed by partial differential equations (PDEs), offering scalable simulation and uncertainty-aware inference. However, enforcing physical constraints, such as conservation laws (linear and nonlinear) and physical consistencies, remains challenging. Existing methods often rely on soft penalties or architectural biases that fail to guarantee hard constraints. In this work, we propose Physics-Constrained Flow Matching (PCFM), a zero-shot inference framework that enforces arbitrary nonlinear constraints in pretrained flow-based generative models. PCFM continuously guides the sampling process through physics-based corrections applied to intermediate solution states, while remaining aligned with the learned flow and satisfying physical constraints. Empirically, PCFM outperforms both unconstrained and constrained baselines on a range of PDEs, including those with shocks, discontinuities, and sharp features, while ensuring exact constraint satisfaction at the final solution. Our method provides a general framework for enforcing hard constraints in both scientific and general-purpose generative models, especially in applications where constraint satisfaction is essential.

arxiv情報

著者 Utkarsh Utkarsh,Pengfei Cai,Alan Edelman,Rafael Gomez-Bombarelli,Christopher Vincent Rackauckas
発行日 2025-06-04 17:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, cs.NA, math.NA | Physics-Constrained Flow Matching: Sampling Generative Models with Hard Constraints はコメントを受け付けていません

Biased by Design: Leveraging AI Inherent Biases to Enhance Critical Thinking of News Readers

要約

このペーパーでは、大規模な言語モデル(LLMS)を使用したプロパガンダ検出ツールの設計について説明します。
AIモデル、特に政治的文脈における固有のバイアスを認めて、ニュース消費における批判的思考を強化するためにこれらのバイアスがどのように活用されるかを調査します。
AIバイアスの典型的な見解に有害なものとして対抗すると、私たちの研究は、ユーザーの政治的スタンスに応じてユーザーの選択とパーソナライズの戦略を提案し、確認バイアスと認知的不協和音の心理的概念を適用します。
Propaganda検出におけるAIツールの洞察と設計の推奨事項(バイアス認識、パーソナライズ、選択、多様な視点の徐々に紹介)を提供する定性的ユーザー調査の調査結果を提示します。

要約(オリジナル)

This paper explores the design of a propaganda detection tool using Large Language Models (LLMs). Acknowledging the inherent biases in AI models, especially in political contexts, we investigate how these biases might be leveraged to enhance critical thinking in news consumption. Countering the typical view of AI biases as detrimental, our research proposes strategies of user choice and personalization in response to a user’s political stance, applying psychological concepts of confirmation bias and cognitive dissonance. We present findings from a qualitative user study, offering insights and design recommendations (bias awareness, personalization and choice, and gradual introduction of diverse perspectives) for AI tools in propaganda detection.

arxiv情報

著者 Liudmila Zavolokina,Kilian Sprenkamp,Zoya Katashinskaya,Daniel Gordon Jones
発行日 2025-06-04 17:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Biased by Design: Leveraging AI Inherent Biases to Enhance Critical Thinking of News Readers はコメントを受け付けていません

CatNet: Controlling the False Discovery Rate in LSTM with SHAP Feature Importance and Gaussian Mirrors

要約

誤検出率(FDR)を効果的に制御し、LSTMで重要な機能を選択するアルゴリズムであるCatnetを導入します。
CATNETは、SHAP値の導関数を使用して特徴の重要性を定量化し、Gaussian Mirrorアルゴリズムを使用してFDRコントロールのベクトル形成ミラー統計を構築します。
特徴間の非線形または時間的相関による不安定性を回避するために、新しいカーネルベースの独立測定も提案します。
CATNETは、シミュレートされたデータと実世界の両方のデータを使用して、さまざまなモデル設定で堅牢に実行され、過剰適合が減少し、モデルの解釈可能性が向上します。
FDRコントロールアルゴリズムで機能の重要性を高め、ガウスミラーを改善するSHAPを導入するフレームワークは、自然に他のタイムシリーズまたはシーケンシャルディープラーニングモデルに拡張できます。

要約(オリジナル)

We introduce CatNet, an algorithm that effectively controls False Discovery Rate (FDR) and selects significant features in LSTM. CatNet employs the derivative of SHAP values to quantify the feature importance, and constructs a vector-formed mirror statistic for FDR control with the Gaussian Mirror algorithm. To avoid instability due to nonlinear or temporal correlations among features, we also propose a new kernel-based independence measure. CatNet performs robustly on different model settings with both simulated and real-world data, which reduces overfitting and improves interpretability of the model. Our framework that introduces SHAP for feature importance in FDR control algorithms and improves Gaussian Mirror can be naturally extended to other time-series or sequential deep learning models.

arxiv情報

著者 Jiaan Han,Junxiao Chen,Yanzhe Fu
発行日 2025-06-04 17:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-fin.ST, stat.ML | CatNet: Controlling the False Discovery Rate in LSTM with SHAP Feature Importance and Gaussian Mirrors はコメントを受け付けていません

What do professional software developers need to know to succeed in an age of Artificial Intelligence?

要約

生成的AIは、ソフトウェア開発者の生産性の向上の初期の証拠を示していますが、労働力の混乱と机上に関する懸念は存続しています。
AIを使用することの最先端にある21人の開発者との研究について説明し、75の関連するタスクとそれぞれのスキルと知識とともに、発見した12の作業目標を要約し、開発者が職場でAIを使用する方法を示します。
これらすべてから、私たちは5つの洞察の形で調査結果を蒸留しました。
成功するAIに強化された開発者であるスキルと知識は、6段階のタスクワークフロー全体でクリティカルジャンクチュアに展開されている4つのドメイン(生成AI、コアソフトウェアエンジニアリング、隣接するエンジニアリング、隣接する非エンジニアリング、隣接する非エンジニアリングを使用して)に編成されています。
AIのこの時代に「将来の証明」開発者を「将来の証明」するために、実地学習イニシアチブとコンピューターサイエンスの学位プログラムは、4つのドメインすべての「ソフト」スキルと技術的スキルと知識の両方をターゲットにする必要があります。

要約(オリジナル)

Generative AI is showing early evidence of productivity gains for software developers, but concerns persist regarding workforce disruption and deskilling. We describe our research with 21 developers at the cutting edge of using AI, summarizing 12 of their work goals we uncovered, together with 75 associated tasks and the skills & knowledge for each, illustrating how developers use AI at work. From all of these, we distilled our findings in the form of 5 insights. We found that the skills & knowledge to be a successful AI-enhanced developer are organized into four domains (using Generative AI effectively, core software engineering, adjacent engineering, and adjacent non-engineering) deployed at critical junctures throughout a 6-step task workflow. In order to ‘future proof’ developers for this age of AI, on-the-job learning initiatives and computer science degree programs will need to target both ‘soft’ skills and the technical skills & knowledge in all four domains to reskill, upskill and safeguard against deskilling.

arxiv情報

著者 Matthew Kam,Cody Miller,Miaoxin Wang,Abey Tidwell,Irene A. Lee,Joyce Malyn-Smith,Beatriz Perez,Vikram Tiwari,Joshua Kenitzer,Andrew Macvean,Erin Barrar
発行日 2025-06-04 17:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | What do professional software developers need to know to succeed in an age of Artificial Intelligence? はコメントを受け付けていません

MACS: Multi-Agent Reinforcement Learning for Optimization of Crystal Structures

要約

原子構造のジオメトリ最適化は、計算化学および材料の設計において一般的かつ重要なタスクです。
パラダイムを最適化する学習に続いて、周期的な結晶構造の最適化に対処するために、マルチエージェントクリスタル構造最適化(MACS)と呼ばれる新しいマルチエージェント補強学習方法を提案します。
Macは、ジオメトリの最適化を部分的に観察可能なマルコフゲームとして扱います。これは、Atomsが安定した構成を集合的に発見するために位置を調整するエージェントです。
報告された結晶材料のさまざまな構成にわたってMACを訓練して、トレーニング構成から構造を最適化するポリシーと、より大きなサイズと目に見えない組成物の構造を正常に最適化し、その優れたスケーラビリティとゼロショット転送可能性を確認します。
幅広い最先端の最適化方法に対してアプローチをベンチマークし、Macが周期的な結晶構造を大幅に速く最適化し、エネルギー計算が少なく、故障率が最も低いことを示しています。

要約(オリジナル)

Geometry optimization of atomic structures is a common and crucial task in computational chemistry and materials design. Following the learning to optimize paradigm, we propose a new multi-agent reinforcement learning method called Multi-Agent Crystal Structure optimization (MACS) to address periodic crystal structure optimization. MACS treats geometry optimization as a partially observable Markov game in which atoms are agents that adjust their positions to collectively discover a stable configuration. We train MACS across various compositions of reported crystalline materials to obtain a policy that successfully optimizes structures from the training compositions as well as structures of larger sizes and unseen compositions, confirming its excellent scalability and zero-shot transferability. We benchmark our approach against a broad range of state-of-the-art optimization methods and demonstrate that MACS optimizes periodic crystal structures significantly faster, with fewer energy calculations, and the lowest failure rate.

arxiv情報

著者 Elena Zamaraeva,Christopher M. Collins,George R. Darling,Matthew S. Dyer,Bei Peng,Rahul Savani,Dmytro Antypov,Vladimir V. Gusev,Judith Clymo,Paul G. Spirakis,Matthew J. Rosseinsky
発行日 2025-06-04 17:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.AI, cs.LG, I.2.11 | MACS: Multi-Agent Reinforcement Learning for Optimization of Crystal Structures はコメントを受け付けていません

Random-key genetic algorithms: Principles and applications

要約

ランダムキー遺伝的アルゴリズムは、離散的かつグローバルな最適化のための進化的メタヒューリスティックです。
各ソリューションは、nランダムキーのベクトルとしてエンコードされます。ランダムキーは、連続間隔[0、1)でランダムに生成される実数の数字です。
デコーダーは、ランダムキーの各ベクトルを、解決する最適化問題の解にマップし、コストを計算します。
このアプローチの利点は、対処されている問題に関係なく、すべての遺伝子演算子と変換を単一のハイパーキューブ内で維持できることです。
これにより、コアフレームワークの生産性と保守性が向上します。
アルゴリズムは、ランダムキーのpベクターの母集団で始まります。
各反復で、ベクトルは2つのセットに分割されます:高価値エリートソリューションの小さいセットと残りの非エリートソリューション。
すべてのエリート要素は、次の集団に変更せずにコピーされます。
少数のランダムキーベクトル(変異体)が、次の反復の集団に追加されます。
次の反復の母集団の残りの要素は、槍とデジョン(1991)のパラメーター化された均一なクロスオーバーと、ソリューションのペアを組み合わせることによって生成されます。
この章では、ランダムキーの遺伝的アルゴリズムをレビューし、バイアスランダムキー遺伝子アルゴリズムと呼ばれる効果的なバリアントについて説明します。

要約(オリジナル)

A random-key genetic algorithm is an evolutionary metaheuristic for discrete and global optimization. Each solution is encoded as a vector of N random keys, where a random key is a real number randomly generated in the continuous interval [0, 1). A decoder maps each vector of random keys to a solution of the optimization problem being solved and computes its cost. The benefit of this approach is that all genetic operators and transformations can be maintained within the unitary hypercube, regardless of the problem being addressed. This enhances the productivity and maintainability of the core framework. The algorithm starts with a population of P vectors of random keys. At each iteration, the vectors are partitioned into two sets: a smaller set of high-valued elite solutions and the remaining non-elite solutions. All elite elements are copied, without change, to the next population. A small number of random-key vectors (the mutants) is added to the population of the next iteration. The remaining elements of the population of the next iteration are generated by combining, with the parametrized uniform crossover of Spears and DeJong (1991), pairs of solutions. This chapter reviews random-key genetic algorithms and describes an effective variant called biased random-key genetic algorithms.

arxiv情報

著者 Mariana A. Londe,Luciana S. Pessoa,Carlos E. Andrade,José F. Gonçalves,Mauricio G. C. Resende
発行日 2025-06-04 17:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90-02, 90B40, 90C27, cs.AI, cs.NE, G.1.6, math.OC | Random-key genetic algorithms: Principles and applications はコメントを受け付けていません

TracLLM: A Generic Framework for Attributing Long Context LLMs

要約

長いコンテキストの大規模な言語モデル(LLM)は、RAG、エージェント、広範なLLM統合アプリケーションなどの多くの実際のアプリケーションに展開されています。
指示と長いコンテキスト(ドキュメント、PDFファイル、Webページなど)を考えると、LLMの長いコンテキストLLMは、提供されたコンテキストに基づいた出力を生成し、より正確で最新の、検証可能な出力を提供しながら、幻覚とサポートされていないクレームを減らします。
これは研究の質問を提起します。LLMによって生成された出力に最も貢献する、または責任を負うコンテキストで、テキスト(例:文、通路、または段落)をどのように特定する方法を特定しますか?
コンテキストトレースバックと呼ばれるこのプロセスには、1)LLMベースのシステムのデバッグ、2)攻撃後の攻撃後の法医学分析(例えば、迅速なインジェクション攻撃、知識腐敗攻撃)を実施するなど、さまざまな現実世界のアプリケーションがあります。
長いコンテキストLLMのコンテキストトレースバックに適用すると、Shapleyなどの既存の機能の帰属方法は、最適なパフォーマンスを持ち、/または大きな計算コストが発生します。
この作業では、長いコンテキストLLMに合わせた最初の汎用コンテキストトレースバックフレームワークであるTracllmを開発します。
当社のフレームワークは、既存の機能の帰属方法の有効性と効率を改善できます。
効率を向上させるために、Tracllmに情報に基づいた検索ベースのアルゴリズムを開発します。
また、Tracllmの精度を向上させるために、貢献スコアアンサンブル/除去技術も開発しています。
私たちの評価結果は、TracllmがLLMの出力につながる長いコンテキストでテキストを効果的に識別できることを示しています。
私たちのコードとデータは、https://github.com/wang-yanting/tracllmにあります。

要約(オリジナル)

Long context large language models (LLMs) are deployed in many real-world applications such as RAG, agent, and broad LLM-integrated applications. Given an instruction and a long context (e.g., documents, PDF files, webpages), a long context LLM can generate an output grounded in the provided context, aiming to provide more accurate, up-to-date, and verifiable outputs while reducing hallucinations and unsupported claims. This raises a research question: how to pinpoint the texts (e.g., sentences, passages, or paragraphs) in the context that contribute most to or are responsible for the generated output by an LLM? This process, which we call context traceback, has various real-world applications, such as 1) debugging LLM-based systems, 2) conducting post-attack forensic analysis for attacks (e.g., prompt injection attack, knowledge corruption attacks) to an LLM, and 3) highlighting knowledge sources to enhance the trust of users towards outputs generated by LLMs. When applied to context traceback for long context LLMs, existing feature attribution methods such as Shapley have sub-optimal performance and/or incur a large computational cost. In this work, we develop TracLLM, the first generic context traceback framework tailored to long context LLMs. Our framework can improve the effectiveness and efficiency of existing feature attribution methods. To improve the efficiency, we develop an informed search based algorithm in TracLLM. We also develop contribution score ensemble/denoising techniques to improve the accuracy of TracLLM. Our evaluation results show TracLLM can effectively identify texts in a long context that lead to the output of an LLM. Our code and data are at: https://github.com/Wang-Yanting/TracLLM.

arxiv情報

著者 Yanting Wang,Wei Zou,Runpeng Geng,Jinyuan Jia
発行日 2025-06-04 17:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | TracLLM: A Generic Framework for Attributing Long Context LLMs はコメントを受け付けていません

Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

要約

推論モデルのテスト時間スケーリングの最近の傾向(例:Openai O1、Deepseek R1)は、「待機」や「Let Me Rethink」などのプロンプトを使用して思考痕跡を拡張するとパフォーマンスを改善できるという一般的な信念につながりました。
これは自然な疑問を提起します:テスト時にもっと考えることは本当により良い推論につながるのでしょうか?
この質問に答えるために、モデルとベンチマーク全体で詳細な経験的研究を実行します。これは、「過度の考え方」のために、追加の思考とそれに続く減少による初期パフォーマンスの改善の一貫したパターンを明らかにします。
この非モノトニックな傾向を理解するために、単純な確率モデルを検討します。これは、追加の思考が、最終的には精度を弱体化させながら、推論の改善の幻想を作成することを明らかにします。
したがって、「より多くの思考」から観察された利益は、改善された推論の真の指標ではなく、モデルの不確実性と評価メトリックの間の接続に起因するアーティファクトです。
これは、拡張思考によるテスト時間スケーリングが推論思考予算を利用する効果的な方法ではないことを示唆しています。
これらの制限を認識して、Best-of-Nサンプリングに触発された、代替のテスト時間スケーリングアプローチ、並行思考を紹介します。
私たちの方法は、同じ推論予算内で複数の独立した推論パスを生成し、多数決を介して最も一貫した応答を選択し、拡張思考と比較して最大20%高い精度を達成します。
これは、推論モデルのテスト時間スケーリングのためのシンプルで効果的なメカニズムを提供します。

要約(オリジナル)

Recent trends in test-time scaling for reasoning models (e.g., OpenAI o1, DeepSeek R1) have led to a popular belief that extending thinking traces using prompts like ‘Wait’ or ‘Let me rethink’ can improve performance. This raises a natural question: Does thinking more at test-time truly lead to better reasoning? To answer this question, we perform a detailed empirical study across models and benchmarks, which reveals a consistent pattern of initial performance improvements from additional thinking followed by a decline, due to ‘overthinking’. To understand this non-monotonic trend, we consider a simple probabilistic model, which reveals that additional thinking increases output variance-creating an illusion of improved reasoning while ultimately undermining precision. Thus, observed gains from ‘more thinking’ are not true indicators of improved reasoning, but artifacts stemming from the connection between model uncertainty and evaluation metric. This suggests that test-time scaling through extended thinking is not an effective way to utilize the inference thinking budget. Recognizing these limitations, we introduce an alternative test-time scaling approach, parallel thinking, inspired by Best-of-N sampling. Our method generates multiple independent reasoning paths within the same inference budget and selects the most consistent response via majority vote, achieving up to 20% higher accuracy compared to extended thinking. This provides a simple yet effective mechanism for test-time scaling of reasoning models.

arxiv情報

著者 Soumya Suvra Ghosal,Souradip Chakraborty,Avinash Reddy,Yifu Lu,Mengdi Wang,Dinesh Manocha,Furong Huang,Mohammad Ghavamzadeh,Amrit Singh Bedi
発行日 2025-06-04 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models はコメントを受け付けていません

Thinking Beyond Visibility: A Near-Optimal Policy Framework for Locally Interdependent Multi-Agent MDPs

要約

分散化された部分的に観察可能なマルコフ決定プロセス(DEC-POMDP)は、NEXP完全で解決するのに扱いにくいことが知られています。
ただし、協力的なナビゲーション、障害物の回避、フォーメーション制御などの問題の場合、局所的な可視性とローカル依存関係について基本的な仮定を行うことができます。
作品はデューイーゼとQU 2024を、局所的に相互依存しているマルチエージェントMDPの構築においてこれらの仮定を正式にしました。
この設定では、さまざまな状況で計算するために扱いやすく、可視性に関して最適に指数関数的に近い3つのクローズドフォームポリシーを確立します。
ただし、これらのソリューションは、可視性が小さく固定されている場合にパフォーマンスが低下する可能性があることも示されており、いわゆる「ペナルティジッタ」現象のためにシミュレーション中にしばしば立ち往生しています。
この作業では、私たちの知る限り、局所的に相互依存する多剤MDPの可視性に関して最適に指数関数的に近い最適な閉じた部分的に観察可能なポリシーの最初の非自明なクラスである拡張されたカットオフポリシークラスを確立します。
これらのポリシーは、エージェントが可視性を超えて覚えているため、多くの小規模で固定された可視性設定で大幅にパフォーマンスを発揮し、ペナルティが不安定な発生を解決し、特定の状況では、部分的な観測性にもかかわらず完全に観察可能な共同最適動作を保証します。
また、遷移依存性と拡張報酬依存性を可能にする局所的に相互依存したマルチエージェントMDPの一般化された形式を提案し、この設定で理論的な結果を再現します。

要約(オリジナル)

Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs) are known to be NEXP-Complete and intractable to solve. However, for problems such as cooperative navigation, obstacle avoidance, and formation control, basic assumptions can be made about local visibility and local dependencies. The work DeWeese and Qu 2024 formalized these assumptions in the construction of the Locally Interdependent Multi-Agent MDP. In this setting, it establishes three closed-form policies that are tractable to compute in various situations and are exponentially close to optimal with respect to visibility. However, it is also shown that these solutions can have poor performance when the visibility is small and fixed, often getting stuck during simulations due to the so called ‘Penalty Jittering’ phenomenon. In this work, we establish the Extended Cutoff Policy Class which is, to the best of our knowledge, the first non-trivial class of near optimal closed-form partially observable policies that are exponentially close to optimal with respect to the visibility for any Locally Interdependent Multi-Agent MDP. These policies are able to remember agents beyond their visibilities which allows them to perform significantly better in many small and fixed visibility settings, resolve Penalty Jittering occurrences, and under certain circumstances guarantee fully observable joint optimal behavior despite the partial observability. We also propose a generalized form of the Locally Interdependent Multi-Agent MDP that allows for transition dependence and extended reward dependence, then replicate our theoretical results in this setting.

arxiv情報

著者 Alex DeWeese,Guannan Qu
発行日 2025-06-04 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, math.OC | Thinking Beyond Visibility: A Near-Optimal Policy Framework for Locally Interdependent Multi-Agent MDPs はコメントを受け付けていません

OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

要約

ナビゲーション、操作、およびビジョンモデルの急速な進歩により、多くの特殊なタスクでモバイルマニピュレーターが能力を発揮しました。
ただし、オープンワールドのモバイル操作(OWMM)タスクは、オープンエンドの指示と環境への一般化の必要性と、グローバルシーンの理解と現在のエージェント状態の両方に基づいて、低レベルのロボット制御と高レベルの意思決定を統合するための体系的な複雑さのために、依然として課題のままです。
この複雑さに対処するために、意思決定のためにマルチビューシーンフレームとエージェント状態を維持し、関数呼び出しごとにロボットを制御する新しいマルチモーダルエージェントアーキテクチャを提案します。
2番目の課題は、ドメインシフトからの幻覚です。
エージェントのパフォーマンスを向上させるために、OWMMタスクのエージェントデータ合成パイプラインをさらに導入して、VLMモデルを命令微調整を使用してタスクドメインに適応させます。
グローバルなシーンの理解、ロボット状態追跡、統一モデルのマルチモーダルアクション生成を備えたモバイルマニピュレーター向けの最初の専用ファンデーションモデルとして、微調整されたOWMM-VLMを強調します。
実験を通じて、GPT-4OやReal Worldの強力なゼロショット一般化など、他の基礎モデルと比較して、モデルがSOTAパフォーマンスを達成することを実証します。
プロジェクトページはhttps://github.com/hhyhrhy/owmm-agentにあります

要約(オリジナル)

The rapid progress of navigation, manipulation, and vision models has made mobile manipulators capable in many specialized tasks. However, the open-world mobile manipulation (OWMM) task remains a challenge due to the need for generalization to open-ended instructions and environments, as well as the systematic complexity to integrate high-level decision making with low-level robot control based on both global scene understanding and current agent state. To address this complexity, we propose a novel multi-modal agent architecture that maintains multi-view scene frames and agent states for decision-making and controls the robot by function calling. A second challenge is the hallucination from domain shift. To enhance the agent performance, we further introduce an agentic data synthesis pipeline for the OWMM task to adapt the VLM model to our task domain with instruction fine-tuning. We highlight our fine-tuned OWMM-VLM as the first dedicated foundation model for mobile manipulators with global scene understanding, robot state tracking, and multi-modal action generation in a unified model. Through experiments, we demonstrate that our model achieves SOTA performance compared to other foundation models including GPT-4o and strong zero-shot generalization in real world. The project page is at https://github.com/HHYHRHY/OWMM-Agent

arxiv情報

著者 Junting Chen,Haotian Liang,Lingxiao Du,Weiyun Wang,Mengkang Hu,Yao Mu,Wenhai Wang,Jifeng Dai,Ping Luo,Wenqi Shao,Lin Shao
発行日 2025-06-04 17:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.10 | OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis はコメントを受け付けていません