General-Reasoner: Advancing LLM Reasoning Across All Domains

要約

強化学習(RL)は最近、大規模な言語モデル(LLM)の推論能力を高める上で強い可能性を実証しました。
特に、DeepSeek-R1-Zeroによって導入された「ゼロ」強化学習により、中間の監視付き微調整段階に依存することなく、ベースLLMの直接RLトレーニングが可能になります。
これらの進歩にもかかわらず、LLMの推論の現在の作業は、主にデータの豊富さと回答検証の容易さが原因で、主に数学的およびコーディングドメインに焦点を当てています。
これにより、そのようなモデルの適用性と一般化がより広範なドメインに制限されます。このドメインでは、質問には多様な回答表現があり、データはより少ないです。
この論文では、多様なドメイン全体のLLM推論能力を強化するために設計された新しいトレーニングパラダイムである一般的な季節を提案します。
私たちの重要な貢献には、次のものが含まれます。(1)幅広い分野をカバーするWebクローリングによってキュレーションされた検証可能な回答を含む、質問の大規模で高品質のデータセットの構築。
(2)伝統的なルールベースの検証を、考え方と文脈の認識の能力に置き換える生成モデルベースの回答検証を開発する。
一連のモデルをトレーニングし、物理学、化学、金融、電子機器などの広いドメインをカバーする幅広いデータセットでそれらを評価します。これらの12のベンチマークにわたる包括的な評価(例:MMLU-PRO、GPQA、SuperGPQA、Theoremqa、BBEH、MATH AMの一般的なパフォーマンスを維持する一般的なraseferingのパフォーマンスを実証していることが示されています。
数学的推論タスクにおける有効性。

要約(オリジナル)

Reinforcement learning (RL) has recently demonstrated strong potential in enhancing the reasoning capabilities of large language models (LLMs). Particularly, the ‘Zero’ reinforcement learning introduced by Deepseek-R1-Zero, enables direct RL training of base LLMs without relying on an intermediate supervised fine-tuning stage. Despite these advancements, current works for LLM reasoning mainly focus on mathematical and coding domains, largely due to data abundance and the ease of answer verification. This limits the applicability and generalization of such models to broader domains, where questions often have diverse answer representations, and data is more scarce. In this paper, we propose General-Reasoner, a novel training paradigm designed to enhance LLM reasoning capabilities across diverse domains. Our key contributions include: (1) constructing a large-scale, high-quality dataset of questions with verifiable answers curated by web crawling, covering a wide range of disciplines; and (2) developing a generative model-based answer verifier, which replaces traditional rule-based verification with the capability of chain-of-thought and context-awareness. We train a series of models and evaluate them on a wide range of datasets covering wide domains like physics, chemistry, finance, electronics etc. Our comprehensive evaluation across these 12 benchmarks (e.g. MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH and MATH AMC) demonstrates that General-Reasoner outperforms existing baseline methods, achieving robust and generalizable reasoning performance while maintaining superior effectiveness in mathematical reasoning tasks.

arxiv情報

著者 Xueguang Ma,Qian Liu,Dongfu Jiang,Ge Zhang,Zejun Ma,Wenhu Chen
発行日 2025-05-22 17:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | General-Reasoner: Advancing LLM Reasoning Across All Domains はコメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約

ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘い、非効率的な推論、および限られた実世界の検証は、正確な知覚と堅牢な段階的な推論を妨げます。
これを克服するために、\ textbf {agentthink}を紹介します。これは、初めて、自律運転タスクのためのダイナミックなエージェントスタイルのツールの呼び出しでチェーンの思考(COT)の推論を統合する先駆的な統一フレームワークです。
AgentThinkのコアイノベーションには、次のものが含まれます。
\ textBf {(ii)2段階のトレーニングパイプライン}。グループ相対ポリシー最適化(GRPO)を備えた監視付き微調整(SFT)を使用して、VLMSに自律的なツールの呼び出しの機能を装備しています。
および\ textBf {(iii)エージェントスタイルのツール使用評価}、モデルのツールの呼び出しと利用を厳密に評価するための新しいマルチツール評価プロトコルを導入します。
Drivelmm-O1ベンチマークでの実験により、AgentHinkは\ textBF {53.91 \%}の全体的な推論スコアを大幅に高め、\ textBF {33.54 \%}による回答の精度を高め、推論の質と一貫性を著しく改善します。
さらに、さまざまなベンチマークにわたるアブレーション研究と堅牢なゼロショット/少数のショット一般化実験は、その強力な機能を強調しています。
これらの調査結果は、信頼できるツールを意識する自律運転モデル​​を開発するための有望な軌跡を強調しています。

要約(オリジナル)

Vision-Language Models (VLMs) show promise for autonomous driving, yet their struggle with hallucinations, inefficient reasoning, and limited real-world validation hinders accurate perception and robust step-by-step reasoning. To overcome this, we introduce \textbf{AgentThink}, a pioneering unified framework that, for the first time, integrates Chain-of-Thought (CoT) reasoning with dynamic, agent-style tool invocation for autonomous driving tasks. AgentThink’s core innovations include: \textbf{(i) Structured Data Generation}, by establishing an autonomous driving tool library to automatically construct structured, self-verified reasoning data explicitly incorporating tool usage for diverse driving scenarios; \textbf{(ii) A Two-stage Training Pipeline}, employing Supervised Fine-Tuning (SFT) with Group Relative Policy Optimization (GRPO) to equip VLMs with the capability for autonomous tool invocation; and \textbf{(iii) Agent-style Tool-Usage Evaluation}, introducing a novel multi-tool assessment protocol to rigorously evaluate the model’s tool invocation and utilization. Experiments on the DriveLMM-o1 benchmark demonstrate AgentThink significantly boosts overall reasoning scores by \textbf{53.91\%} and enhances answer accuracy by \textbf{33.54\%}, while markedly improving reasoning quality and consistency. Furthermore, ablation studies and robust zero-shot/few-shot generalization experiments across various benchmarks underscore its powerful capabilities. These findings highlight a promising trajectory for developing trustworthy and tool-aware autonomous driving models.

arxiv情報

著者 Kangan Qian,Sicong Jiang,Yang Zhong,Ziang Luo,Zilin Huang,Tianze Zhu,Kun Jiang,Mengmeng Yang,Zheng Fu,Jinyu Miao,Yining Shi,He Zhe Lim,Li Liu,Tianbao Zhou,Hongyi Wang,Huang Yu,Yifei Hu,Guang Li,Guang Chen,Hao Ye,Lijun Sun,Diange Yang
発行日 2025-05-22 12:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

Towards Machine-Generated Code for the Resolution of User Intentions

要約

人工知能(AI)の成長能力、特に大規模な言語モデル(LLM)は、ユーザーとそのデバイス間の相互作用メカニズムの再評価を促します。
現在、ユーザーは一連の高レベルアプリケーションを使用して、望ましい結果を達成する必要があります。
ただし、AIの出現は、その能力がモデル生成コードの展開を通じてユーザーが提供する意図解決の新しい見通しを生み出したため、この点でシフトを示す可能性があります。
この開発は、ハイブリッドワークフローの領域における大幅な進行を表しています。ハイブリッドワークフローは、人間と人工知能が協力してユーザーの意図に対処し、前者はこれらの意図を定義する責任を負い、後者はそれらに対処するためのソリューションを実装する責任があります。
この論文では、具体的なユーザーの意図でLLMを促し、ガイレスオペレーティングシステムの単純化されたアプリケーションプログラミングインターフェイスを促すことに起因するコード生成を通じてワークフローを生成および実行する可能性を調査します。
さまざまなユーザー意図、結果のコード、およびその実行の詳細な分析と比較を提供します。
調査結果は、当社のアプローチの一般的な実現可能性と、採用されたLLMであるGPT-4O-MINIが、提供されたユーザーの意図に従ってコード指向ワークフローの生成において顕著な習熟度を示していることを示しています。

要約(オリジナル)

The growing capabilities of Artificial Intelligence (AI), particularly Large Language Models (LLMs), prompt a reassessment of the interaction mechanisms between users and their devices. Currently, users are required to use a set of high-level applications to achieve their desired results. However, the advent of AI may signal a shift in this regard, as its capabilities have generated novel prospects for user-provided intent resolution through the deployment of model-generated code. This development represents a significant progression in the realm of hybrid workflows, where human and artificial intelligence collaborate to address user intentions, with the former responsible for defining these intentions and the latter for implementing the solutions to address them. In this paper, we investigate the feasibility of generating and executing workflows through code generation that results from prompting an LLM with a concrete user intention, and a simplified application programming interface for a GUI-less operating system. We provide an in-depth analysis and comparison of various user intentions, the resulting code, and its execution. The findings demonstrate the general feasibility of our approach and that the employed LLM, GPT-4o-mini, exhibits remarkable proficiency in the generation of code-oriented workflows in accordance with provided user intentions.

arxiv情報

著者 Justus Flerlage,Ilja Behnke,Odej Kao
発行日 2025-05-22 10:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards Machine-Generated Code for the Resolution of User Intentions はコメントを受け付けていません

GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents

要約

最近のグラフィカルユーザーインターフェイス(GUI)エージェントは、R1-Zeroパラダイムを複製し、オブジェクトの接地前に明示的なチェーンの推論を備えたオンライン補強学習(RL)を結合し、それによってかなりのパフォーマンスの向上を達成します。
この論文では、最初に、そのトレーニングパイプラインの3つの重要なコンポーネントの広範な分析実験を実施します。入力設計、出力評価、およびPolicy Updateは、GUI接地タスクに適応せずに汎用RLを盲目的に適用することから生じる明確な課題を明らかにします。
入力設計:現在のテンプレートは、モデルが考えられたチェーンの推論を生成するよう奨励しますが、長いチェーンは予期せずに接地パフォーマンスが悪化します。
出力評価:ヒット信号またはボックスエリアに基づく報酬関数により、モデルはボックスサイズを活用し、報酬のハッキングとローカリゼーションの品質が低下します。
ポリシーの更新:オンラインRLは、長さのバイアスとサンプルの難易度のために簡単な例にぴったりである傾向があり、より困難なケースで最適化されていない。
これらの問題に対処するために、3つのターゲットを絞ったソリューションを提案します。
まず、直接的な回答生成を促進する高速思考テンプレートを採用し、トレーニング中の過度の推論を減らします。
第二に、報酬ハッキングを緩和するために、報酬関数にボックスサイズの制約を組み込みます。
第三に、長さの正規化を調整し、難易度に合ったスケーリング係数を追加し、ハードサンプルの最適化を改善できるようにすることにより、RLの目的を修正します。
GUI-G1-3Bは、QWEN2.5-VL-3B-Instructで17Kの公共サンプルで訓練されており、Screenspotで90.3%の精度、Screenspot-Proで37.1%を達成します。
これは、同様のサイズのすべての以前のモデルを上回り、さらに大きなUI-TARS-7Bを上回り、GUIエージェントの接地で新しい最先端の接地を確立します。
プロジェクトリポジトリは、https://github.com/yuqi-zhou/gui-g1で入手できます。

要約(オリジナル)

Recent Graphical User Interface (GUI) agents replicate the R1-Zero paradigm, coupling online Reinforcement Learning (RL) with explicit chain-of-thought reasoning prior to object grounding and thereby achieving substantial performance gains. In this paper, we first conduct extensive analysis experiments of three key components of that training pipeline: input design, output evaluation, and policy update-each revealing distinct challenges arising from blindly applying general-purpose RL without adapting to GUI grounding tasks. Input design: Current templates encourage the model to generate chain-of-thought reasoning, but longer chains unexpectedly lead to worse grounding performance. Output evaluation: Reward functions based on hit signals or box area allow models to exploit box size, leading to reward hacking and poor localization quality. Policy update: Online RL tends to overfit easy examples due to biases in length and sample difficulty, leading to under-optimization on harder cases. To address these issues, we propose three targeted solutions. First, we adopt a Fast Thinking Template that encourages direct answer generation, reducing excessive reasoning during training. Second, we incorporate a box size constraint into the reward function to mitigate reward hacking. Third, we revise the RL objective by adjusting length normalization and adding a difficulty-aware scaling factor, enabling better optimization on hard samples. Our GUI-G1-3B, trained on 17K public samples with Qwen2.5-VL-3B-Instruct, achieves 90.3% accuracy on ScreenSpot and 37.1% on ScreenSpot-Pro. This surpasses all prior models of similar size and even outperforms the larger UI-TARS-7B, establishing a new state-of-the-art in GUI agent grounding. The project repository is available at https://github.com/Yuqi-Zhou/GUI-G1.

arxiv情報

著者 Yuqi Zhou,Sunhao Dai,Shuai Wang,Kaiwen Zhou,Qinglin Jia,Jun Xu
発行日 2025-05-22 11:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | GUI-G1: Understanding R1-Zero-Like Training for Visual Grounding in GUI Agents はコメントを受け付けていません

UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models

要約

都市のダイナミクスを理解し、予測することは、輸送システムの管理、都市計画の最適化、公共サービスの強化に不可欠です。
ニューラルネットワークベースのアプローチは成功を収めていますが、多くの場合、タスク固有のアーキテクチャと大量のデータに依存しており、多様な都市のシナリオ全体で一般化する能力を制限しています。
一方、大規模な言語モデル(LLMS)は強力な推論と一般化能力を提供しますが、空間的都市のダイナミクスへの適用は依存していないままです。
既存のLLMベースの方法は、多面的な空間的データを効果的に統合するのに苦労し、トレーニングとテストデータの間の分布シフトに対処し、実際のアプリケーションでの予測信頼性を制限します。
このギャップを埋めるために、正確な予測と堅牢な一般化の両方を保証する多面的な都市ダイナミクス予測のための新しい空間的LLMフレームワークであるUrbanmindを提案します。
その中心で、Urbanmindは、多面的な空間的依存関係と多面的な都市ダイナミクス間の相互相関をキャプチャする特殊なマスキング戦略を備えた多面的な融合マスク自動エンコーダーであるMuffin-Maeを導入します。
さらに、空間的に対応するコンテキストの詳細をプロンプトにコードするセマンティックに対応するプロンプトと微調整戦略を設計し、空間的パターン上で推論するLLMSの能力を高めます。
一般化をさらに向上させるために、テストデータ再構築装置を使用したテスト時間適応メカニズムを導入し、LLMで生成された埋め込みを再構築することにより、Urbanmindが目に見えないテストデータに動的に調整できるようにします。
複数の都市の実世界の都市データセットに関する広範な実験は、都市部が一貫して最先端のベースラインを上回り、ゼロショット設定であっても、高精度と堅牢な一般化を達成することを示しています。

要約(オリジナル)

Understanding and predicting urban dynamics is crucial for managing transportation systems, optimizing urban planning, and enhancing public services. While neural network-based approaches have achieved success, they often rely on task-specific architectures and large volumes of data, limiting their ability to generalize across diverse urban scenarios. Meanwhile, Large Language Models (LLMs) offer strong reasoning and generalization capabilities, yet their application to spatial-temporal urban dynamics remains underexplored. Existing LLM-based methods struggle to effectively integrate multifaceted spatial-temporal data and fail to address distributional shifts between training and testing data, limiting their predictive reliability in real-world applications. To bridge this gap, we propose UrbanMind, a novel spatial-temporal LLM framework for multifaceted urban dynamics prediction that ensures both accurate forecasting and robust generalization. At its core, UrbanMind introduces Muffin-MAE, a multifaceted fusion masked autoencoder with specialized masking strategies that capture intricate spatial-temporal dependencies and intercorrelations among multifaceted urban dynamics. Additionally, we design a semantic-aware prompting and fine-tuning strategy that encodes spatial-temporal contextual details into prompts, enhancing LLMs’ ability to reason over spatial-temporal patterns. To further improve generalization, we introduce a test time adaptation mechanism with a test data reconstructor, enabling UrbanMind to dynamically adjust to unseen test data by reconstructing LLM-generated embeddings. Extensive experiments on real-world urban datasets across multiple cities demonstrate that UrbanMind consistently outperforms state-of-the-art baselines, achieving high accuracy and robust generalization, even in zero-shot settings.

arxiv情報

著者 Yuhang Liu,Yingxue Zhang,Xin Zhang,Ling Tian,Yanhua Li,Jun Luo
発行日 2025-05-22 04:43:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models はコメントを受け付けていません

HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving

要約

大規模な言語モデル(LLMS)と強化学習(RL)を統合すると、複雑なシナリオで自律運転(AD)パフォーマンスを向上させることができます。
ただし、現在のLLMが支配しているRLメソッドは、LLM出力を超えています。
評価によると、最先端のLLMは、必須の運転関連タスクで評価された場合、約57.95%のみの非ホリューチン剤率を示していることが示されています。
したがって、これらの方法では、LLMからの幻覚は、運転政策のパフォーマンスを直接危険にさらす可能性があります。
この論文は、LLMとRLの間の相対的な独立性を維持することが幻覚の問題を解決するために不可欠であると主張しています。
その結果、この論文は、新しいLLMヒントRLパラダイムを提案することに専念しています。
LLMは、RLエージェントがモーションプランニングにおいてRLエージェントを支援するために、州の増強とポリシーの最適化のセマンティックヒントを生成するために使用されますが、RLエージェントは、優れた運転性能を達成するためのポリシー学習を通じて潜在的な誤ったセマンティック表示に対抗します。
このパラダイムに基づいて、HCRMP(LLMヒントのコンテキスト強化学習モーションプランナー)アーキテクチャを提案します。
コンテキスト安定性アンカーモジュールは、知識ベースからの情報を利用することにより、多粘膜重量ヒントの信頼性を高めます。
セマンティックキャッシュモジュールは、LLM低周波ガイダンスをRL高周波制御とシームレスに統合するために採用されています。
Carlaでの広範な実験は、HCRMPの全体的な運転パフォーマンスの強力なものを検証します。
HCRMPは、さまざまな交通密度の多様な運転条件で最大80.3%のタスク成功率を達成します。
安全性が批判的な駆動条件下では、HCRMPは衝突率を11.4%大幅に削減し、複雑なシナリオでの運転性能を効果的に改善します。

要約(オリジナル)

Integrating Large Language Models (LLMs) with Reinforcement Learning (RL) can enhance autonomous driving (AD) performance in complex scenarios. However, current LLM-Dominated RL methods over-rely on LLM outputs, which are prone to hallucinations. Evaluations show that state-of-the-art LLM indicates a non-hallucination rate of only approximately 57.95% when assessed on essential driving-related tasks. Thus, in these methods, hallucinations from the LLM can directly jeopardize the performance of driving policies. This paper argues that maintaining relative independence between the LLM and the RL is vital for solving the hallucinations problem. Consequently, this paper is devoted to propose a novel LLM-Hinted RL paradigm. The LLM is used to generate semantic hints for state augmentation and policy optimization to assist RL agent in motion planning, while the RL agent counteracts potential erroneous semantic indications through policy learning to achieve excellent driving performance. Based on this paradigm, we propose the HCRMP (LLM-Hinted Contextual Reinforcement Learning Motion Planner) architecture, which is designed that includes Augmented Semantic Representation Module to extend state space. Contextual Stability Anchor Module enhances the reliability of multi-critic weight hints by utilizing information from the knowledge base. Semantic Cache Module is employed to seamlessly integrate LLM low-frequency guidance with RL high-frequency control. Extensive experiments in CARLA validate HCRMP’s strong overall driving performance. HCRMP achieves a task success rate of up to 80.3% under diverse driving conditions with different traffic densities. Under safety-critical driving conditions, HCRMP significantly reduces the collision rate by 11.4%, which effectively improves the driving performance in complex scenarios.

arxiv情報

著者 Zhiwen Chen,Bo Leng,Zhuoren Li,Hanming Deng,Guizhe Jin,Ran Yu,Huanxi Wen
発行日 2025-05-22 04:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving はコメントを受け付けていません

Multi-modal Integration Analysis of Alzheimer’s Disease Using Large Language Models and Knowledge Graphs

要約

大規模な言語モデル(LLMS)と知識グラフを使用したアルツハイマー病(AD)の研究に断片化されたマルチモーダルデータを統合するための新しいフレームワークを提案します。
従来のマルチモーダル分析では、データセット全体で一致する患者IDが必要ですが、私たちのアプローチでは、MRI、遺伝子発現、バイオマーカー、EEG、および独立コホートからの臨床指標の人口レベルの統合が示されています。
統計分析では、知識グラフのノードとして接続された各モダリティの重要な機能を特定しました。
次に、LLMSはグラフを分析して潜在的な相関を抽出し、自然言語で仮説を生成しました。
このアプローチは、代謝リスク因子を神経炎症(r> 0.6、p <0.001)を介したタウタンパク質の異常を結びつける潜在的な経路、および正面EEGチャネルと特定の遺伝子発現プロファイルとの予期しない相関(r = 0.42-0.58、p <0.01)を含む、いくつかの新しい関係を明らかにしました。 独立したデータセットとの相互検証により、主要な発見の堅牢性が確認され、コホート全体で一貫した効果サイズがあります(分散<15%)。 これらの調査結果の再現性は、専門家のレビュー(CohenのK = 0.82)および計算検証によってさらにサポートされていました。 私たちのフレームワークにより、患者IDマッチングを必要とせずに概念的レベルでクロスモーダル統合が可能になり、断片化されたデータの再利用と将来の研究のためのテスト可能な仮説を生成することにより、広告の病理を理解するための新しい可能性を提供します。

要約(オリジナル)

We propose a novel framework for integrating fragmented multi-modal data in Alzheimer’s disease (AD) research using large language models (LLMs) and knowledge graphs. While traditional multimodal analysis requires matched patient IDs across datasets, our approach demonstrates population-level integration of MRI, gene expression, biomarkers, EEG, and clinical indicators from independent cohorts. Statistical analysis identified significant features in each modality, which were connected as nodes in a knowledge graph. LLMs then analyzed the graph to extract potential correlations and generate hypotheses in natural language. This approach revealed several novel relationships, including a potential pathway linking metabolic risk factors to tau protein abnormalities via neuroinflammation (r>0.6, p<0.001), and unexpected correlations between frontal EEG channels and specific gene expression profiles (r=0.42-0.58, p<0.01). Cross-validation with independent datasets confirmed the robustness of major findings, with consistent effect sizes across cohorts (variance <15%). The reproducibility of these findings was further supported by expert review (Cohen's k=0.82) and computational validation. Our framework enables cross modal integration at a conceptual level without requiring patient ID matching, offering new possibilities for understanding AD pathology through fragmented data reuse and generating testable hypotheses for future research.

arxiv情報

著者 Kanan Kiguchi,Yunhao Tu,Katsuhiro Ajito,Fady Alnajjar,Kazuyuki Murase
発行日 2025-05-22 03:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.1 | Multi-modal Integration Analysis of Alzheimer’s Disease Using Large Language Models and Knowledge Graphs はコメントを受け付けていません

AnyBody: A Benchmark Suite for Cross-Embodiment Manipulation

要約

新しい実施形態に対する制御ポリシーの一般化は、ロボット工学におけるスケーラブルで移転可能な学習を可能にする際の根本的な課題のままです。
以前の作品は移動でこれを調査していますが、標準化されたベンチマークがないため、操作タスクのコンテキストでの体系的な研究は限られたままです。
この論文では、2つの基本的なタスクに焦点を当て、多様な範囲の形態学をプッシュすることに焦点を当てた、交差体操作を学習するためのベンチマークを紹介します。
ベンチマークは、3つの軸に沿って一般化をテストするように設計されています:補間(同じリンク構造を共有するロボットカテゴリ内のテストパフォーマンス)、外挿(異なるリンク構造を持つロボットでのテスト)、および構成(リンク構造の組み合わせのテスト)。
ベンチマークでは、さまざまなRLポリシーが複数の形態から学習し、新しい形態に一般化する能力を評価します。
私たちの研究の目的は、形態認識のトレーニングが単一類型のベースラインを上回ることができるかどうか、目に見えない形態へのゼロショットの一般化が実行可能かどうか、そしてこれらのパターンが異なる一般化体制全体にどのように一貫して保持されるかを答えることを目的としています。
結果は、多層学の学習の現在の制限を強調し、建築およびトレーニングの設計の選択が政策の一般化にどのように影響するかについての洞察を提供します。

要約(オリジナル)

Generalizing control policies to novel embodiments remains a fundamental challenge in enabling scalable and transferable learning in robotics. While prior works have explored this in locomotion, a systematic study in the context of manipulation tasks remains limited, partly due to the lack of standardized benchmarks. In this paper, we introduce a benchmark for learning cross-embodiment manipulation, focusing on two foundational tasks-reach and push-across a diverse range of morphologies. The benchmark is designed to test generalization along three axes: interpolation (testing performance within a robot category that shares the same link structure), extrapolation (testing on a robot with a different link structure), and composition (testing on combinations of link structures). On the benchmark, we evaluate the ability of different RL policies to learn from multiple morphologies and to generalize to novel ones. Our study aims to answer whether morphology-aware training can outperform single-embodiment baselines, whether zero-shot generalization to unseen morphologies is feasible, and how consistently these patterns hold across different generalization regimes. The results highlight the current limitations of multi-embodiment learning and provide insights into how architectural and training design choices influence policy generalization.

arxiv情報

著者 Meenal Parakh,Alexandre Kirchmeyer,Beining Han,Jia Deng
発行日 2025-05-21 00:21:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | AnyBody: A Benchmark Suite for Cross-Embodiment Manipulation はコメントを受け付けていません

Towards Robust Autonomous Landing Systems: Iterative Solutions and Key Lessons Learned

要約

非難された航空車(UAV)は研究の焦点となっており、確立された企業と新興企業の両方が開発に多額の投資をしています。
このホワイトペーパーでは、堅牢な自律マーカーベースの着陸システムを開発する際の反復プロセスを提示し、遭遇した重要な課題と実装されたソリューションを強調しています。
自律的な着陸プロセスの既存のシステムをレビューし、これを通じて、開発とテスト中に直面する洞察と課題を共有することにより、コミュニティに貢献することを目的としています。

要約(オリジナル)

Uncrewed Aerial Vehicles (UAVs) have become a focal point of research, with both established companies and startups investing heavily in their development. This paper presents our iterative process in developing a robust autonomous marker-based landing system, highlighting the key challenges encountered and the solutions implemented. It reviews existing systems for autonomous landing processes, and through this aims to contribute to the community by sharing insights and challenges faced during development and testing.

arxiv情報

著者 Sebastian Schroder,Yao Deng,Alice James,Avishkar Seth,Kye Morton,Subhas Mukhopadhyay,Richard Han,Xi Zheng
発行日 2025-05-21 00:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Towards Robust Autonomous Landing Systems: Iterative Solutions and Key Lessons Learned はコメントを受け付けていません

UniSTPA: A Safety Analysis Framework for End-to-End Autonomous Driving

要約

自律運転技術が進歩し続けるにつれて、エンドツーエンドモデルは、優れた一般化能力により、かなりの注目を集めています。
それにもかかわらず、このような学習ベースのシステムは、開発と路上展開を通して多くの安全リスクを伴い、既存の安全分析方法はこれらのリスクを包括的に特定するのに苦労しています。
このギャップに対処するために、統一されたシステム理論プロセス分析(UnistPA)フレームワークを提案します。これにより、STPAの範囲は、情報収集、データ準備、閉ループトレーニング、検証、展開など、エンドツーエンドの自律運転システムのライフサイクル全体に拡張されます。
Unistpaは、コンポーネントレベルだけでなく、モデルの内部層内でもハザード分析を実行し、それにより、インターおよびモジュール内の相互作用の微細な評価を可能にします。
高速道路をケーススタディとしてオートパイロット機能でナビゲートすると、Unistpaは、マルチレベルの因果分析を通じて、シーンデザインの欠陥、センサー融合バイアス、内部モデルの欠陥を含む従来のアプローチによって見過ごされている多段階のハザードを明らかにし、これらの危険をデータ品質、ネットワークアーキテクチャ、最適化などのより深い問題に追跡します。
分析結果は、ハザードの識別からシステムの最適化までの継続的な改善をサポートする安全性監視と安全対応メカニズムを構築するために使用されます。
したがって、提案されたフレームワークは、エンドツーエンドの自律駆動システムの安全な開発と展開に関する理論的および実用的なガイダンスの両方を提供します。

要約(オリジナル)

As autonomous driving technology continues to advance, end-to-end models have attracted considerable attention owing to their superior generalisation capability. Nevertheless, such learning-based systems entail numerous safety risks throughout development and on-road deployment, and existing safety-analysis methods struggle to identify these risks comprehensively. To address this gap, we propose the Unified System Theoretic Process Analysis (UniSTPA) framework, which extends the scope of STPA from the operational phase to the entire lifecycle of an end-to-end autonomous driving system, including information gathering, data preparation, closed loop training, verification, and deployment. UniSTPA performs hazard analysis not only at the component level but also within the model’s internal layers, thereby enabling fine-grained assessment of inter and intra module interactions. Using a highway Navigate on Autopilot function as a case study, UniSTPA uncovers multi-stage hazards overlooked by conventional approaches including scene design defects, sensor fusion biases, and internal model flaws, through multi-level causal analysis, traces these hazards to deeper issues such as data quality, network architecture, and optimisation objectives. The analysis result are used to construct a safety monitoring and safety response mechanism that supports continuous improvement from hazard identification to system optimisation. The proposed framework thus offers both theoretical and practical guidance for the safe development and deployment of end-to-end autonomous driving systems.

arxiv情報

著者 Hongrui Kou,Zhouhang Lyu,Ziyu Wang,Cheng Wang,Yuxin Zhang
発行日 2025-05-21 01:23:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SE | UniSTPA: A Safety Analysis Framework for End-to-End Autonomous Driving はコメントを受け付けていません