Let LLMs Break Free from Overthinking via Self-Braking Tuning

要約

Openai O1やDeepseek-R1などの大きな推論モデル(LRMS)は、長い思考チェーンを生成することにより、推論能力を大幅に強化し、さまざまなタスクにわたって優れたパフォーマンスを示しています。
ただし、このパフォーマンスの増加は、生成プロセス中の冗長推論の大幅な増加を犠牲にして、高い計算オーバーヘッドにつながり、考え過ぎの問題を悪化させます。
多数の既存のアプローチは、考え過ぎの問題に対処することを目指していますが、多くの場合、外部の介入に依存しています。
この論文では、モデルが独自の推論プロセスを調節できるようにするという観点から考え直し、外部制御メカニズムへの依存を排除​​するという観点から考え直すことに取り組む新しいフレームワークである自己繁栄のチューニング(SBT)を提案します。
標準の回答に基づいて一連の考え直し識別指標を構築し、冗長な推論を検出するための体系的な方法を設計します。
この方法は、推論軌道内の不必要な手順を正確に識別し、自己調節行動を学ぶためのトレーニング信号を生成します。
この基盤に基づいて、適応的な推論長でデータを構築するための完全な戦略を開発し、モデルが適切なポイントで推論を終了する時期を自然に学ぶことができる革新的なブレーキプロンプトメカニズムを導入します。
数学ベンチマーク(AIME、AMC、Math500、GSM8K)の実験は、制約のないモデルに同等の精度を維持しながら、この方法がトークン消費を最大60%減らすことを示しています。

要約(オリジナル)

Large reasoning models (LRMs), such as OpenAI o1 and DeepSeek-R1, have significantly enhanced their reasoning capabilities by generating longer chains of thought, demonstrating outstanding performance across a variety of tasks. However, this performance gain comes at the cost of a substantial increase in redundant reasoning during the generation process, leading to high computational overhead and exacerbating the issue of overthinking. Although numerous existing approaches aim to address the problem of overthinking, they often rely on external interventions. In this paper, we propose a novel framework, Self-Braking Tuning (SBT), which tackles overthinking from the perspective of allowing the model to regulate its own reasoning process, thus eliminating the reliance on external control mechanisms. We construct a set of overthinking identification metrics based on standard answers and design a systematic method to detect redundant reasoning. This method accurately identifies unnecessary steps within the reasoning trajectory and generates training signals for learning self-regulation behaviors. Building on this foundation, we develop a complete strategy for constructing data with adaptive reasoning lengths and introduce an innovative braking prompt mechanism that enables the model to naturally learn when to terminate reasoning at an appropriate point. Experiments across mathematical benchmarks (AIME, AMC, MATH500, GSM8K) demonstrate that our method reduces token consumption by up to 60% while maintaining comparable accuracy to unconstrained models.

arxiv情報

著者 Haoran Zhao,Yuchen Yan,Yongliang Shen,Haolei Xu,Wenqi Zhang,Kaitao Song,Jian Shao,Weiming Lu,Jun Xiao,Yueting Zhuang
発行日 2025-05-21 16:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Let LLMs Break Free from Overthinking via Self-Braking Tuning はコメントを受け付けていません

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

要約

大規模な言語モデル(LLMS)は、チェーンオブテア(COT)推論を通じて数学的タスクで顕著な進歩を遂げました。
ただし、既存の数学COTデータセットは、モデルの学習と一般化に悪影響を与える中間のステップを省略している専門家のために、思考の飛躍に苦しむことがよくあります。
私たちは、コットの完全性と一貫性を復元するために、飛躍を自動的に検出し、欠落している中間推論手順を生成することを目的とするCOTの思考Leap Bridgeタスクを提案します。
これを容易にするために、構造化されたScaleQuestmathデータセットに基づいて、ScaleQM+と呼ばれる専門的なトレーニングデータセットを構築し、トレーニングされたCOT-BRIDGEを使用して思考の飛躍を橋渡ししました。
数学的推論ベンチマークに関する包括的な実験を通じて、ブリッジ付きデータセットで微調整されたモデルは、元のデータセットでトレーニングされたものを一貫して上回ることを実証します。
当社のアプローチは、蒸留データ(+3.02%)を効果的に強化し(+3.02%)、強化学習のためのより良い出発点(+3.1%)を提供し、既存の最適化技術と互換性のあるプラグアンドプレイモジュールとして機能します。
さらに、Cot-Bridgeは、ドメイン外の論理的推論タスクに対する一般化の改善を示しており、推論の完全性を高めることで広く適用される利点が得られることを確認します。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable progress on mathematical tasks through Chain-of-Thought (CoT) reasoning. However, existing mathematical CoT datasets often suffer from Thought Leaps due to experts omitting intermediate steps, which negatively impacts model learning and generalization. We propose the CoT Thought Leap Bridge Task, which aims to automatically detect leaps and generate missing intermediate reasoning steps to restore the completeness and coherence of CoT. To facilitate this, we constructed a specialized training dataset called ScaleQM+, based on the structured ScaleQuestMath dataset, and trained CoT-Bridge to bridge thought leaps. Through comprehensive experiments on mathematical reasoning benchmarks, we demonstrate that models fine-tuned on bridged datasets consistently outperform those trained on original datasets, with improvements of up to +5.87% on NuminaMath. Our approach effectively enhances distilled data (+3.02%) and provides better starting points for reinforcement learning (+3.1%), functioning as a plug-and-play module compatible with existing optimization techniques. Furthermore, CoT-Bridge demonstrate improved generalization to out-of-domain logical reasoning tasks, confirming that enhancing reasoning completeness yields broadly applicable benefits.

arxiv情報

著者 Haolei Xu,Yuchen Yan,Yongliang Shen,Wenqi Zhang,Guiyang Hou,Shengpei Jiang,Kaitao Song,Weiming Lu,Jun Xiao,Yueting Zhuang
発行日 2025-05-21 17:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning はコメントを受け付けていません

Pivot Language for Low-Resource Machine Translation

要約

特定の言語のペアは、サイズが大きく、ドメインが多様な平行なコーパスの欠如に悩まされています。
これが克服される方法の1つは、ピボット言語を使用することです。
この論文では、ヒンディー語をピボット言語として使用して、ネパールを英語に翻訳します。
ヒンディー語をピボットの良い候補者にしている理由について説明します。
ピボット言語を使用する方法について説明し、ネパールを英語に翻訳するために、譲渡方法(完全に監視された)と逆翻訳(半監視)(半監視)の2つのアプローチを使用します。
前者を使用して、14.2のDevTestセットSacrebleuスコアを達成することができます。これにより、(Guzman et al。、2019)が報告したベースライン完全な監視スコアが6.6ポイント増加します。
私たちは15.1の半監視されたベースラインスコアをわずかに下回っていますが、このパフォーマンスの低いものを引き起こした可能性のあるものについて説明し、将来の仕事の範囲を示唆しています。

要約(オリジナル)

Certain pairs of languages suffer from lack of a parallel corpus which is large in size and diverse in domain. One of the ways this is overcome is via use of a pivot language. In this paper we use Hindi as a pivot language to translate Nepali into English. We describe what makes Hindi a good candidate for the pivot. We discuss ways in which a pivot language can be used, and use two such approaches – the Transfer Method (fully supervised) and Backtranslation (semi-supervised) – to translate Nepali into English. Using the former, we are able to achieve a devtest Set SacreBLEU score of 14.2, which improves the baseline fully supervised score reported by (Guzman et al., 2019) by 6.6 points. While we are slightly below the semi-supervised baseline score of 15.1, we discuss what may have caused this under-performance, and suggest scope for future work.

arxiv情報

著者 Abhimanyu Talwar,Julien Laasri
発行日 2025-05-21 13:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG, I.2.7 | Pivot Language for Low-Resource Machine Translation はコメントを受け付けていません

MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol

要約

モデルコンテキストプロトコル(MCP)は、ユーザーと開発者に使いやすいエコシステムを導入するため、露出していない安全リスクももたらします。
クライアントとサーバーを分離する分散アーキテクチャは、体系的な安全分析に独自の課題をもたらします。
このペーパーでは、MCPの安全性を高めるための新しいフレームワークを提案しています。
Maestroフレームワークに導かれ、まずMCPの欠落安全メカニズムを分析し、この分析に基づいて、これらのギャップに対処するMCPの洗練されたバージョンであるモデルコンテキスト整合性プロトコル(MCIP)を提案します。
次に、MCPシナリオで観察される多様な危険な動作をキャプチャする細粒の分類法を開発します。
この分類法に基づいて、MCP相互作用内の安全リスクを特定するためのLLMSの能力の評価と改善をサポートするベンチマークとトレーニングデータを開発します。
提案されたベンチマークとトレーニングデータを活用して、最先端のLLMに関する広範な実験を実施します。
結果は、MCP相互作用のLLMSの脆弱性を強調し、私たちのアプローチが安全性能を大幅に改善することを示しています。

要約(オリジナル)

As Model Context Protocol (MCP) introduces an easy-to-use ecosystem for users and developers, it also brings underexplored safety risks. Its decentralized architecture, which separates clients and servers, poses unique challenges for systematic safety analysis. This paper proposes a novel framework to enhance MCP safety. Guided by the MAESTRO framework, we first analyze the missing safety mechanisms in MCP, and based on this analysis, we propose the Model Contextual Integrity Protocol (MCIP), a refined version of MCP that addresses these gaps. Next, we develop a fine-grained taxonomy that captures a diverse range of unsafe behaviors observed in MCP scenarios. Building on this taxonomy, we develop benchmark and training data that support the evaluation and improvement of LLMs’ capabilities in identifying safety risks within MCP interactions. Leveraging the proposed benchmark and training data, we conduct extensive experiments on state-of-the-art LLMs. The results highlight LLMs’ vulnerabilities in MCP interactions and demonstrate that our approach substantially improves their safety performance.

arxiv情報

著者 Huihao Jing,Haoran Li,Wenbin Hu,Qi Hu,Heli Xu,Tianshu Chu,Peizhao Hu,Yangqiu Song
発行日 2025-05-21 14:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MCIP: Protecting MCP Safety via Model Contextual Integrity Protocol はコメントを受け付けていません

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

要約

大規模な言語モデル(LLMS)の最近の進歩は、推論能力を正確に評価するためのより包括的な評価方法の必要性を強調しています。
多くの場合、既存のベンチマークはドメイン固有であるため、LLMの一般的な推論の可能性を完全にキャプチャすることはできません。
この制限に対処するために、Kor-BenchとGymnasiumに触発された動的評価プラットフォームである知識直交推論体育館(Korgym)を紹介します。
Korgymは、テキスト形式または視覚形式のいずれかで50以上のゲームを提供し、強化学習シナリオを使用したインタラクティブなマルチターン評価をサポートしています。
Korgymを使用して、19 LLMと8つのVLMで広範な実験を実施し、モデルファミリ内の一貫した推論パターンを明らかにし、クローズドソースモデルの優れた性能を実証します。
さらなる分析では、モデルのパフォーマンスに対するモダリティ、推論戦略、強化学習技術、および応答長の影響を調べます。
Korgymは、LLMの推論を進め、複雑でインタラクティブな環境に適した評価方法論を開発するための貴重なリソースになることを期待しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) underscore the need for more comprehensive evaluation methods to accurately assess their reasoning capabilities. Existing benchmarks are often domain-specific and thus cannot fully capture an LLM’s general reasoning potential. To address this limitation, we introduce the Knowledge Orthogonal Reasoning Gymnasium (KORGym), a dynamic evaluation platform inspired by KOR-Bench and Gymnasium. KORGym offers over fifty games in either textual or visual formats and supports interactive, multi-turn assessments with reinforcement learning scenarios. Using KORGym, we conduct extensive experiments on 19 LLMs and 8 VLMs, revealing consistent reasoning patterns within model families and demonstrating the superior performance of closed-source models. Further analysis examines the effects of modality, reasoning strategies, reinforcement learning techniques, and response length on model performance. We expect KORGym to become a valuable resource for advancing LLM reasoning research and developing evaluation methodologies suited to complex, interactive environments.

arxiv情報

著者 Jiajun Shi,Jian Yang,Jiaheng Liu,Xingyuan Bu,Jiangjie Chen,Junting Zhou,Kaijing Ma,Zhoufutu Wen,Bingli Wang,Yancheng He,Liang Song,Hualei Zhu,Shilong Li,Xingjian Wang,Wei Zhang,Ruibin Yuan,Yifan Yao,Wenjun Yang,Yunli Wang,Siyuan Fang,Siyu Yuan,Qianyu He,Xiangru Tang,Yingshui Tan,Wangchunshu Zhou,Zhaoxiang Zhang,Zhoujun Li,Wenhao Huang,Ge Zhang
発行日 2025-05-21 07:43:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation はコメントを受け付けていません

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

要約

高忠実度の3Dオブジェクト合成は、メッシュデータの構造化されていない性質と密な体積グリッドの立方体の複雑さにより、2D画像生成よりも依然として困難なままです。
VAEを使用した既存の2段パイプラインを圧縮するメッシュ(2Dまたは3Dの監督を使用)に続いて、VAEで導入された非効率的な表現とモダリティミスマッチによって引き起こされる深刻な細部喪失に苦しむ。
SPARC3Dを導入します。これは、スパース変形可能なマーチングキューブ表現スパルキューブと新しいエンコーダーSPARCONV-VAEを組み合わせた統一されたフレームワークを紹介します。
Sparcubesは、生のメッシュを高解像度($ 1024^3 $)の表面に変換し、署名された距離と変形場をまばらな立方体に散乱させ、微分可能な最適化を可能にします。
SPARCONV-VAEは、まばらな畳み込みネットワーク上に完全に構​​築された最初のモダリティ一貫性のある変動自動エンコーダーであり、潜在的な拡散を介した高解像度の生成モデリングに適した効率的かつほぼ失われた3D再構成を可能にします。
SPARC3Dは、オープンサーフェス、切断されたコンポーネント、複雑なジオメトリなど、挑戦的な入力で最先端の再構成の忠実度を達成します。
細粒の形状のディテールを保存し、トレーニングと推論コストを削減し、スケーラブルで高解像度の3D生成の潜在的な拡散モデルと自然に統合します。

要約(オリジナル)

High-fidelity 3D object synthesis remains significantly more challenging than 2D image generation due to the unstructured nature of mesh data and the cubic complexity of dense volumetric grids. Existing two-stage pipelines-compressing meshes with a VAE (using either 2D or 3D supervision), followed by latent diffusion sampling-often suffer from severe detail loss caused by inefficient representations and modality mismatches introduced in VAE. We introduce Sparc3D, a unified framework that combines a sparse deformable marching cubes representation Sparcubes with a novel encoder Sparconv-VAE. Sparcubes converts raw meshes into high-resolution ($1024^3$) surfaces with arbitrary topology by scattering signed distance and deformation fields onto a sparse cube, allowing differentiable optimization. Sparconv-VAE is the first modality-consistent variational autoencoder built entirely upon sparse convolutional networks, enabling efficient and near-lossless 3D reconstruction suitable for high-resolution generative modeling through latent diffusion. Sparc3D achieves state-of-the-art reconstruction fidelity on challenging inputs, including open surfaces, disconnected components, and intricate geometry. It preserves fine-grained shape details, reduces training and inference cost, and integrates naturally with latent diffusion models for scalable, high-resolution 3D generation.

arxiv情報

著者 Zhihao Li,Yufei Wang,Heliang Zheng,Yihao Luo,Bihan Wen
発行日 2025-05-21 07:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling はコメントを受け付けていません

Sketch Interface for Teleoperation of Mobile Manipulator to Enable Intuitive and Intended Operation: A Proof of Concept

要約

ロボット工学の最近の進歩は、人間とロボットの間の効果的なコラボレーションの必要性を強調しています。
従来のインターフェイスは、ロボットの自律性と人間の監視のバランスをとるのに苦労しており、モバイル操作などの複雑なタスクでの実用的なアプリケーションを制限しています。
この研究の目的は、モバイルマニピュレーターがユーザーが提供するスケッチを自律的に解釈し、負担を最小限に抑えながらユーザーエクスペリエンスを強化できるようにする直感的なインターフェイスを開発することを目的としています。
機械学習アルゴリズムを使用してスケッチを処理するWebベースのアプリケーションを実装し、いつでもどこでも使用するモバイルデバイスでインターフェイスにアクセスできるようにしました。
最初の検証では、27の選択された操作とナビゲーションタスクについてユーザーが描いた自然なスケッチを調べ、スケッチの指示に関連する傾向に関する洞察を得ました。
2番目の検証では、5つの把握タスクを使用した比較実験が含まれ、スケッチインターフェイスがワークロードを減らし、従来の軸制御インターフェイスと比較して直感性を高めることを示しています。
これらの調査結果は、提案されたスケッチインターフェイスがモバイルマニピュレーターの効率を改善し、さまざまなアプリケーションで直感的なヒューマンロボットコラボレーションを統合するための新しい道を開くことを示唆しています。

要約(オリジナル)

Recent advancements in robotics have underscored the need for effective collaboration between humans and robots. Traditional interfaces often struggle to balance robot autonomy with human oversight, limiting their practical application in complex tasks like mobile manipulation. This study aims to develop an intuitive interface that enables a mobile manipulator to autonomously interpret user-provided sketches, enhancing user experience while minimizing burden. We implemented a web-based application utilizing machine learning algorithms to process sketches, making the interface accessible on mobile devices for use anytime, anywhere, by anyone. In the first validation, we examined natural sketches drawn by users for 27 selected manipulation and navigation tasks, gaining insights into trends related to sketch instructions. The second validation involved comparative experiments with five grasping tasks, showing that the sketch interface reduces workload and enhances intuitiveness compared to conventional axis control interfaces. These findings suggest that the proposed sketch interface improves the efficiency of mobile manipulators and opens new avenues for integrating intuitive human-robot collaboration in various applications.

arxiv情報

著者 Yuka Iwanaga,Masayoshi Tsuchinaga,Kosei Tanada,Yuji Nakamura,Takemitsu Mori,Takashi Yamamoto
発行日 2025-05-21 04:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Sketch Interface for Teleoperation of Mobile Manipulator to Enable Intuitive and Intended Operation: A Proof of Concept はコメントを受け付けていません

Think Only When You Need with Large Hybrid-Reasoning Models

要約

最近の大規模な推論モデル(LRM)は、最終的な応答を作成する前に拡張思考プロセスを組み込むことにより、従来の大規模な言語モデル(LLMS)に対して実質的に改善された推論機能を示しています。
ただし、過度に長い思考は、トークンの消費とレイテンシの点でかなりの間接的なオーバーヘッドを導入します。これは、単純なクエリには特に不要です。
この作業では、ユーザークエリのコンテキスト情報に基づいて思考を実行できるかどうかを適応的に決定できる最初の種類のモデルである大規模なハイブリッドリレイニングモデル(LHRMS)を導入します。
これを達成するために、ハイブリッド微調整(HFT)をコールドスタートとして含む2段階のトレーニングパイプラインを提案し、その後、提案されたハイブリッドグループポリシー最適化(HGPO)を使用して、適切な思考モードを暗黙的に学習するためのオンライン強化学習を提案します。
さらに、ハイブリッド精度と呼ばれるメトリックを導入して、ハイブリッド思考のモデルの機能を定量的に評価します。
広範な実験結果は、LHRMがさまざまな難易度とタイプのクエリについてハイブリッド思考を適応的に実行できることを示しています。
推論と一般的な能力において、既存のLRMとLLMを上回り、効率を大幅に改善します。
一緒に、私たちの仕事は、拡張思考プロセスの適切な使用の再考を提唱し、ハイブリッド思考システムを構築するための確固たる出発点を提供します。

要約(オリジナル)

Recent Large Reasoning Models (LRMs) have shown substantially improved reasoning capabilities over traditional Large Language Models (LLMs) by incorporating extended thinking processes prior to producing final responses. However, excessively lengthy thinking introduces substantial overhead in terms of token consumption and latency, which is particularly unnecessary for simple queries. In this work, we introduce Large Hybrid-Reasoning Models (LHRMs), the first kind of model capable of adaptively determining whether to perform thinking based on the contextual information of user queries. To achieve this, we propose a two-stage training pipeline comprising Hybrid Fine-Tuning (HFT) as a cold start, followed by online reinforcement learning with the proposed Hybrid Group Policy Optimization (HGPO) to implicitly learn to select the appropriate thinking mode. Furthermore, we introduce a metric called Hybrid Accuracy to quantitatively assess the model’s capability for hybrid thinking. Extensive experimental results show that LHRMs can adaptively perform hybrid thinking on queries of varying difficulty and type. It outperforms existing LRMs and LLMs in reasoning and general capabilities while significantly improving efficiency. Together, our work advocates for a reconsideration of the appropriate use of extended thinking processes and provides a solid starting point for building hybrid thinking systems.

arxiv情報

著者 Lingjie Jiang,Xun Wu,Shaohan Huang,Qingxiu Dong,Zewen Chi,Li Dong,Xingxing Zhang,Tengchao Lv,Lei Cui,Furu Wei
発行日 2025-05-21 05:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Think Only When You Need with Large Hybrid-Reasoning Models はコメントを受け付けていません

From Structural Design to Dynamics Modeling: Control-Oriented Development of a 3-RRR Parallel Ankle Rehabilitation Robot

要約

このホワイトペーパーでは、ピッチ、ロール、およびヨーの動きを介したマルチドフリカバリをサポートする3-RRR球面並列メカニズム(SPM)に基づいたウェアラブルアンクルリハビリテーションロボットの開発を提示します。
このシステムは、快適さ、安全性、足首の生体力学との互換性のために設計されたコンパクトで人間工学に基づいた構造を備えています。
構造設計、モーション計画のための運動学的モデリング、トルク推定およびシミュレーション分析のためのラグランジアンベースの動的モデリングなど、完全なデザイン間パイプラインが実装されています。
予備シミュレーションは、代表的なリハビリテーション軌跡の下での安定した関節調整とスムーズなモーショントラッキングを検証します。
現在、コントロールフレームワークは、ワークスペース全体の応答性を高めるために開発されています。
将来の作業は、モデルベースの制御を介して運動学的特異性に対処するためのパーソナライズされたモデリングと適応戦略の統合に焦点を当てます。
この作業は、インテリジェントでパーソナライズされた足首リハビリテーションのための基礎プラットフォームを確立し、静的トレーニングと歩行期にタイミングされた支援の潜在的な拡張の両方を可能にします。

要約(オリジナル)

This paper presents the development of a wearable ankle rehabilitation robot based on a 3-RRR spherical parallel mechanism (SPM) to support multi-DOF recovery through pitch, roll, and yaw motions. The system features a compact, ergonomic structure designed for comfort, safety, and compatibility with ankle biomechanics. A complete design-to-dynamics pipeline has been implemented, including structural design, kinematic modeling for motion planning, and Lagrangian-based dynamic modeling for torque estimation and simulation analysis. Preliminary simulations verify stable joint coordination and smooth motion tracking under representative rehabilitation trajectories. The control framework is currently being developed to enhance responsiveness across the workspace. Future work will focus on integrating personalized modeling and adaptive strategies to address kinematic singularities through model based control. This work establishes a foundational platform for intelligent, personalized ankle rehabilitation, enabling both static training and potential extension to gait-phase-timed assistance.

arxiv情報

著者 Siyuan Zhang,Yufei Zhang,Junlin Lyu,Sunil K. Agrawal
発行日 2025-05-19 22:28:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | From Structural Design to Dynamics Modeling: Control-Oriented Development of a 3-RRR Parallel Ankle Rehabilitation Robot はコメントを受け付けていません

Building reliable sim driving agents by scaling self-play

要約

シミュレーションエージェントは、自律車両(AVS)などの人間と相互作用するシステムを設計およびテストするために不可欠です。
これらのエージェントは、AVパフォーマンスのベンチマークからストレステストシステムの制限まで、さまざまな目的を果たしますが、すべてのアプリケーションは1つの重要な要件である信頼性を共有しています。
健全な実験を可能にするには、シミュレーションエージェントが意図したとおりに動作する必要があります。
分析の信号対雑音比を歪める可能性のある衝突など、望ましくない結果につながる可能性のあるアクションを最小限に抑える必要があります。
信頼性の高いSIMエージェントの基盤として、人間の知覚と制御に関する半現実的な制限の下で、WAYMOオープンモーションデータセットの数千のシナリオにスケーリングの自己プレイを提案します。
単一のGPUでのゼロからのトレーニング、当社のエージェントは1日以内にほぼ完全なトレーニングセットを解決します。
彼らは、目に見えないテストシーンに一般化し、10,000の保有シナリオで0.8%未満の衝突およびオフロードインシデントで99.8%の目標完了率を達成します。
分布内の一般化を超えて、当社のエージェントは分散型シーンに対する部分的な堅牢性を示し、そのような場合にほぼ完璧なパフォーマンスに達するために数分で微調整できます。
事前に訓練されたエージェントをオープンソースし、それらをバッチ付きマルチエージェントシミュレーターと統合します。
エージェントの行動のデモンストレーションは、https://sites.google.com/view/reliable-sim-agentsで見ることができ、https://github.com/emerge-lab/gpudriveでエージェントをオープンソースします。

要約(オリジナル)

Simulation agents are essential for designing and testing systems that interact with humans, such as autonomous vehicles (AVs). These agents serve various purposes, from benchmarking AV performance to stress-testing system limits, but all applications share one key requirement: reliability. To enable sound experimentation, a simulation agent must behave as intended. It should minimize actions that may lead to undesired outcomes, such as collisions, which can distort the signal-to-noise ratio in analyses. As a foundation for reliable sim agents, we propose scaling self-play to thousands of scenarios on the Waymo Open Motion Dataset under semi-realistic limits on human perception and control. Training from scratch on a single GPU, our agents solve almost the full training set within a day. They generalize to unseen test scenes, achieving a 99.8% goal completion rate with less than 0.8% combined collision and off-road incidents across 10,000 held-out scenarios. Beyond in-distribution generalization, our agents show partial robustness to out-of-distribution scenes and can be fine-tuned in minutes to reach near-perfect performance in such cases. We open-source the pre-trained agents and integrate them with a batched multi-agent simulator. Demonstrations of agent behaviors can be viewed at https://sites.google.com/view/reliable-sim-agents, and we open-source our agents at https://github.com/Emerge-Lab/gpudrive.

arxiv情報

著者 Daphne Cornelisse,Aarav Pandya,Kevin Joseph,Joseph Suárez,Eugene Vinitsky
発行日 2025-05-19 23:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Building reliable sim driving agents by scaling self-play はコメントを受け付けていません