GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents

要約

グラフィカルユーザーインターフェイス(GUI)エージェントの構築における既存の取り組みは、大規模な視覚言語モデル(LVLMS)で監視された微調整のトレーニングパラダイムに大きく依存しています。
ただし、このアプローチには、幅広いトレーニングデータが必要であるだけでなく、GUIスクリーンショットを効果的に理解し、目に見えないインターフェイスに一般化するのに苦労しています。
この問題は、特に高レベルのタスクでは、実際のシナリオでのアプリケーションを大幅に制限しています。
大規模な推論モデル(例えば、Deepseek-R1)の強化微調整(RFT)に触発され、実際の設定での大規模な言語モデルの問題解決機能を効率的に強化します。
By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02\% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different
プラットフォーム(モバイル、デスクトップ、およびWeb)。
これらの結果は、実世界のGUIエージェントタスクのLVLMSの実行能力を改善する際の統一されたアクション空間ルールモデリングに基づいて、強化学習の計り知れない可能性を示しています。

要約(オリジナル)

Existing efforts in building Graphical User Interface (GUI) agents largely rely on the training paradigm of supervised fine-tuning on Large Vision-Language Models (LVLMs). However, this approach not only demands extensive amounts of training data but also struggles to effectively understand GUI screenshots and generalize to unseen interfaces. The issue significantly limits its application in real-world scenarios, especially for high-level tasks. Inspired by Reinforcement Fine-Tuning (RFT) in large reasoning models (e.g., DeepSeek-R1), which efficiently enhances the problem-solving capabilities of large language models in real-world settings, we propose \name, the first reinforcement learning framework designed to enhance the GUI capabilities of LVLMs in high-level real-world task scenarios, through unified action space rule modeling. By leveraging a small amount of carefully curated high-quality data across multiple platforms (including Windows, Linux, MacOS, Android, and Web) and employing policy optimization algorithms such as Group Relative Policy Optimization (GRPO) to update the model, \name achieves superior performance using only 0.02\% of the data (3K vs. 13M) compared to previous state-of-the-art methods like OS-Atlas across eight benchmarks spanning three different platforms (mobile, desktop, and web). These results demonstrate the immense potential of reinforcement learning based on unified action space rule modeling in improving the execution capabilities of LVLMs for real-world GUI agent tasks.

arxiv情報

著者 Xiaobo Xia,Run Luo
発行日 2025-04-15 14:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC | GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents はコメントを受け付けていません

InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

要約

Native Multimodal Pre-Trainingパラダイムを備えたInterNVLシリーズの大幅な進歩であるInternVL3を紹介します。
視覚入力をサポートするマルチモーダル大手言語モデル(MLLM)にテキストのみの大型言語モデル(LLM)を適応させるのではなく、InterNVL3は、単一の貿易前の段階で多様なマルチモーダルデータと純粋なテキストコーパスの両方からマルチモーダルおよび言語的機能を共同で取得します。
この統一されたトレーニングパラダイムは、MLLMの従来の事後トレーニングパイプラインで一般的に遭遇する複雑さとアラインメントの課題に効果的に対処します。
パフォーマンスとスケーラビリティをさらに向上させるために、INTERNVL3には、可変視覚位置エンコーディング(V2PE)が組み込まれて、拡張されたマルチモーダルコンテキストをサポートし、監視付き微調整(SFT)や混合好みの最適化(MPO)などの高度なトレーニングテクニックを採用し、最適化されたトレーニングインフラストラクチャとともにテストタイムのスケーリング戦略を採用します。
広範な経験的評価は、InternVL3が幅広いマルチモーダルタスクで優れたパフォーマンスを提供することを示しています。
特に、InternVL3-78BはMMMUベンチマークで72.2のスコアを達成し、オープンソースMLLMの間で新しい最先端を設定します。
その機能は、ChatGPT-4o、Claude 3.5 Sonnet、Gemini 2.5 Proなど、主要な独自モデルと非常に競争力があり、強力な純粋な能力を維持しています。
オープンサイエンスの原則を追求するために、トレーニングデータとモデルの重量の両方を公開して、次世代のMLLMのさらなる研究開発を促進します。

要約(オリジナル)

We introduce InternVL3, a significant advancement in the InternVL series featuring a native multimodal pre-training paradigm. Rather than adapting a text-only large language model (LLM) into a multimodal large language model (MLLM) that supports visual inputs, InternVL3 jointly acquires multimodal and linguistic capabilities from both diverse multimodal data and pure-text corpora during a single pre-training stage. This unified training paradigm effectively addresses the complexities and alignment challenges commonly encountered in conventional post-hoc training pipelines for MLLMs. To further improve performance and scalability, InternVL3 incorporates variable visual position encoding (V2PE) to support extended multimodal contexts, employs advanced post-training techniques such as supervised fine-tuning (SFT) and mixed preference optimization (MPO), and adopts test-time scaling strategies alongside an optimized training infrastructure. Extensive empirical evaluations demonstrate that InternVL3 delivers superior performance across a wide range of multi-modal tasks. In particular, InternVL3-78B achieves a score of 72.2 on the MMMU benchmark, setting a new state-of-the-art among open-source MLLMs. Its capabilities remain highly competitive with leading proprietary models, including ChatGPT-4o, Claude 3.5 Sonnet, and Gemini 2.5 Pro, while also maintaining strong pure-language proficiency. In pursuit of open-science principles, we will publicly release both the training data and model weights to foster further research and development in next-generation MLLMs.

arxiv情報

著者 Jinguo Zhu,Weiyun Wang,Zhe Chen,Zhaoyang Liu,Shenglong Ye,Lixin Gu,Yuchen Duan,Hao Tian,Weijie Su,Jie Shao,Zhangwei Gao,Erfei Cui,Yue Cao,Yangzhou Liu,Xingguang Wei,Hongjie Zhang,Haomin Wang,Weiye Xu,Hao Li,Jiahao Wang,Dengnian Chen,Songze Li,Yinan He,Tan Jiang,Jiapeng Luo,Yi Wang,Conghui He,Botian Shi,Xingcheng Zhang,Wenqi Shao,Junjun He,Yingtong Xiong,Wenwen Qu,Peng Sun,Penglong Jiao,Han Lv,Lijun Wu,Kaipeng Zhang,Huipeng Deng,Jiaye Ge,Kai Chen,Limin Wang,Min Dou,Lewei Lu,Xizhou Zhu,Tong Lu,Dahua Lin,Yu Qiao,Jifeng Dai,Wenhai Wang
発行日 2025-04-15 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models はコメントを受け付けていません

VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

要約

現在のマルチモーダルベンチマークは、多くの場合、推論とドメイン固有の知識を混同し、非専門家の設定で一般的な推論能力を分離および評価することを困難にします。
これに対処するために、VisualPuzzlesを導入します。これは、視覚的な推論をターゲットにしながら、専門的な知識への依存を意図的に最小限に抑えるベンチマークです。
VisualPuzzlesは、アルゴリズム、類推、演ductive、帰納的、および空間的推論の5つのカテゴリにまたがる多様な質問で構成されています。
私たちの質問の主な原因の1つは、中国の公務員試験からの論理的推論の質問を手動で翻訳することです。
実験では、視覚的パズルには、MMMUなどのベンチマークと比較して、視覚的なドメイン固有の知識とより複雑な推論が必要であり、本物のマルチモーダル推論をよりよく評価できるようにすることが示されています。
評価によると、最先端のマルチモーダルな大手言語モデルは、視覚的パズルの人間のパフォーマンスに一貫して遅れをとっており、知識集約型ベンチマークの強力なパフォーマンスは、必ずしも推論に焦点を合わせた知識の光のタスクの成功につながるわけではありません。
さらに、推論計算のスケールアップ(「思考」モードを使用して)などの推論の強化は、モデルとタスクタイプ間で一貫性のない利益をもたらし、モデルサイズとパフォーマンスの間に明確な相関関係は観察されません。
また、モデルは、知識に重点を置いたベンチマークと比較して、視覚的パズルの異なる推論と応答パターンを示すことを発見しました。
VisualPuzzlesは、事実上のリコールやドメインの知識を超えて、推論機能を評価するためのより明確なレンズを提供します。

要約(オリジナル)

Current multimodal benchmarks often conflate reasoning with domain-specific knowledge, making it difficult to isolate and evaluate general reasoning abilities in non-expert settings. To address this, we introduce VisualPuzzles, a benchmark that targets visual reasoning while deliberately minimizing reliance on specialized knowledge. VisualPuzzles consists of diverse questions spanning five categories: algorithmic, analogical, deductive, inductive, and spatial reasoning. One major source of our questions is manually translated logical reasoning questions from the Chinese Civil Service Examination. Experiments show that VisualPuzzles requires significantly less intensive domain-specific knowledge and more complex reasoning compared to benchmarks like MMMU, enabling us to better evaluate genuine multimodal reasoning. Evaluations show that state-of-the-art multimodal large language models consistently lag behind human performance on VisualPuzzles, and that strong performance on knowledge-intensive benchmarks does not necessarily translate to success on reasoning-focused, knowledge-light tasks. Additionally, reasoning enhancements such as scaling up inference compute (with ‘thinking’ modes) yield inconsistent gains across models and task types, and we observe no clear correlation between model size and performance. We also found that models exhibit different reasoning and answering patterns on VisualPuzzles compared to benchmarks with heavier emphasis on knowledge. VisualPuzzles offers a clearer lens through which to evaluate reasoning capabilities beyond factual recall and domain knowledge.

arxiv情報

著者 Yueqi Song,Tianyue Ou,Yibo Kong,Zecheng Li,Graham Neubig,Xiang Yue
発行日 2025-04-15 13:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge はコメントを受け付けていません

Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

要約

チェックボックスは、ダニの有無がデータの抽出と意思決定プロセスを直接通知する現実世界のドキュメント処理で重要です。
しかし、幅広いタスクにわたる大規模なビジョンモデルと言語モデルの強力なパフォーマンスにもかかわらず、彼らはチェック可能なコンテンツの解釈に苦労しています。
この課題は、見落とされがちなチェックボックスが費用のかかる規制または契約上の監視につながる可能性のある業界で特に差し迫っています。
このギャップに対処するために、チェックボックス関連のタスクのモデルパフォーマンスを評価および改善するために設計されたターゲットリソースであるCheckboxQaデータセットを導入します。
現在のモデルの限界を明らかにし、Legal TechやFinanceなどのセクターでのアプリケーションに大きな意味を持つ、ドキュメント理解システムを進めるための貴重なツールとして機能します。
データセットは、https://github.com/snowflake-labs/checkboxqaで公開されています

要約(オリジナル)

Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA

arxiv情報

著者 Michał Turski,Mateusz Chiliński,Łukasz Borchmann
発行日 2025-04-15 11:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA はコメントを受け付けていません

Opinion: Revisiting synthetic data classifications from a privacy perspective

要約

合成データは、既存の知識から生成されるか、実際のデータから導出されたAI開発のますます増加するデータ要求を満たすために必要な費用対効果の高いソリューションとして浮上しています。
ハイブリッド、部分的または完全な合成データセットへの合成データ型の従来の分類は、価値が限られており、合成データを生成するための増え続ける方法を反映していません。
生成方法とそのソースは、合成データの特性を共同で形成し、それがその実用的なアプリケーションを決定します。
合成データの生成と処理の規制ガイダンスを促進するために、プライバシーの視点をよりよく反映する合成データ型をグループ化するための代替アプローチを主張します。
この分類へのアプローチは、深い生成方法などの新しい進歩に柔軟性を提供し、将来のアプリケーションのためのより実用的なフレームワークを提供します。

要約(オリジナル)

Synthetic data is emerging as a cost-effective solution necessary to meet the increasing data demands of AI development, created either from existing knowledge or derived from real data. The traditional classification of synthetic data types into hybrid, partial or fully synthetic datasets has limited value and does not reflect the ever-increasing methods to generate synthetic data. The generation method and their source jointly shape the characteristics of synthetic data, which in turn determines its practical applications. We make a case for an alternative approach to grouping synthetic data types that better reflect privacy perspectives in order to facilitate regulatory guidance in the generation and processing of synthetic data. This approach to classification provides flexibility to new advancements like deep generative methods and offers a more practical framework for future applications.

arxiv情報

著者 Vibeke Binz Vallevik,Serena Elizabeth Marshall,Aleksandar Babic,Jan Franz Nygaard
発行日 2025-04-15 10:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Opinion: Revisiting synthetic data classifications from a privacy perspective はコメントを受け付けていません

Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study

要約

ハードウェア、コンピューターグラフィックス、AIの最近の開発により、AR/VRヘッドマウントディスプレイ(HMD)がスマートフォンやタブレットなどの日常的なデバイスになることができるようになります。
HMDS内のアイトラッカーは、視線ベースの研究と相互作用を促進することが可能であるため、このようなセットアップに特別な機会を提供します。
ただし、ユーザーの視線情報を見積もるには、多くの場合、ユーザー認証のためのゴールドスタンダード生体認証と見なされるIRISテクスチャを含む生の画像とビデオが必要であり、プライバシーの懸念を引き起こします。
視線追跡コミュニティでの以前の研究は、視線の推定などのユーティリティタスクを正確に保持しながら、虹彩テクスチャの難読化に焦点を当てていました。
これらの試みにもかかわらず、最先端のアプローチを評価する包括的なベンチマークはありません。
このペーパーでは、すべてを考慮して、ぼやけ、ノイシング、ダウンサンプリング、ゴムシートモデル、およびアイリススタイルの転送をベンチマークして、ユーザーのアイデンティティを難読化し、2つのデータセットに対する輸送攻撃のリスクに対する画質、プライバシー、ユーティリティ、リスクに対する影響を比較します。
私たちは、ユーティリティタスクとして目のセグメンテーションと視線の推定を使用し、プライバシー保護の尺度としてIRIS認識の精度の低下、および攻撃のリスクを推定するための誤った受け入れ率を使用します。
私たちの実験は、ぼやけやノイズなどの標準的な画像処理方法が、深い学習ベースのタスクにわずかな影響を与えることを示しています。
ダウンサンプリング、ゴムシートモデル、およびIRISスタイルの転送は、ユーザー識別子の隠れ、IRISスタイルの転送に効果的であり、計算コストが高くなり、両方のユーティリティタスクで他の人を上回り、スプーフィング攻撃に対してより弾力性があります。
私たちの分析は、プライバシー、ユーティリティ、および計算の負担をバランスさせるための普遍的な最適なアプローチがないことを示しています。
したがって、実務家は、各アプローチの長所と短所、および最適なプライバシー効果のトレードオフに到達するために、それらの可能な組み合わせを考慮することをお勧めします。

要約(オリジナル)

Recent developments in hardware, computer graphics, and AI may soon enable AR/VR head-mounted displays (HMDs) to become everyday devices like smartphones and tablets. Eye trackers within HMDs provide a special opportunity for such setups as it is possible to facilitate gaze-based research and interaction. However, estimating users’ gaze information often requires raw eye images and videos that contain iris textures, which are considered a gold standard biometric for user authentication, and this raises privacy concerns. Previous research in the eye-tracking community focused on obfuscating iris textures while keeping utility tasks such as gaze estimation accurate. Despite these attempts, there is no comprehensive benchmark that evaluates state-of-the-art approaches. Considering all, in this paper, we benchmark blurring, noising, downsampling, rubber sheet model, and iris style transfer to obfuscate user identity, and compare their impact on image quality, privacy, utility, and risk of imposter attack on two datasets. We use eye segmentation and gaze estimation as utility tasks, and reduction in iris recognition accuracy as a measure of privacy protection, and false acceptance rate to estimate risk of attack. Our experiments show that canonical image processing methods like blurring and noising cause a marginal impact on deep learning-based tasks. While downsampling, rubber sheet model, and iris style transfer are effective in hiding user identifiers, iris style transfer, with higher computation cost, outperforms others in both utility tasks, and is more resilient against spoof attacks. Our analyses indicate that there is no universal optimal approach to balance privacy, utility, and computation burden. Therefore, we recommend practitioners consider the strengths and weaknesses of each approach, and possible combinations of those to reach an optimal privacy-utility trade-off.

arxiv情報

著者 Mengdi Wang,Efe Bozkir,Enkelejda Kasneci
発行日 2025-04-15 09:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Trade-offs in Privacy-Preserving Eye Tracking through Iris Obfuscation: A Benchmarking Study はコメントを受け付けていません

Constraint-Aware Zero-Shot Vision-Language Navigation in Continuous Environments

要約

ゼロショット設定の下で、連続環境(VLN-CE)におけるビジョン言語ナビゲーションのタスクに対処します。
ゼロショットVLN-CEは、ガイドナビゲーションの前にトレーニングのための専門家のデモがなく、環境構造を最小限に抑えているため、特に困難です。
これらの課題に立ち向かうために、ゼロショットVLN-CEを連続的な制約対応のサブインストラクション完了プロセスとして再構成する制約対応ナビゲーター(CA-NAV)を提案します。
CA-NAVは、2つのコアモジュールを使用して、サブインストラクションをナビゲーションプランに継続的に変換します:制約アウェアサブインストラクションマネージャー(CSM)と制約対応値マッパー(CVM)。
CSMは、分解されたサブインストラクションの完了基準を制約として定義し、サブインストラクションを制約対応方法で切り替えることにより、ナビゲーションの進行を追跡します。
CSMの制約に導かれたCVMは、その場でバリューマップを生成し、スーパーピクセルのクラスタリングを使用してナビゲーションの安定性を向上させます。
CA-NAVは、2つのVLN-CEベンチマークで最先端のパフォーマンスを達成し、それぞれR2R-CEとRXR-CEの検証が見えない分割の成功率が12%および13%を超えています。
さらに、Ca-Navは、さまざまな屋内シーンや指示にわたる実際のロボットの展開における有効性を示しています。

要約(オリジナル)

We address the task of Vision-Language Navigation in Continuous Environments (VLN-CE) under the zero-shot setting. Zero-shot VLN-CE is particularly challenging due to the absence of expert demonstrations for training and minimal environment structural prior to guide navigation. To confront these challenges, we propose a Constraint-Aware Navigator (CA-Nav), which reframes zero-shot VLN-CE as a sequential, constraint-aware sub-instruction completion process. CA-Nav continuously translates sub-instructions into navigation plans using two core modules: the Constraint-Aware Sub-instruction Manager (CSM) and the Constraint-Aware Value Mapper (CVM). CSM defines the completion criteria for decomposed sub-instructions as constraints and tracks navigation progress by switching sub-instructions in a constraint-aware manner. CVM, guided by CSM’s constraints, generates a value map on the fly and refines it using superpixel clustering to improve navigation stability. CA-Nav achieves the state-of-the-art performance on two VLN-CE benchmarks, surpassing the previous best method by 12 percent and 13 percent in Success Rate on the validation unseen splits of R2R-CE and RxR-CE, respectively. Moreover, CA-Nav demonstrates its effectiveness in real-world robot deployments across various indoor scenes and instructions.

arxiv情報

著者 Kehan Chen,Dong An,Yan Huang,Rongtao Xu,Yifei Su,Yonggen Ling,Ian Reid,Liang Wang
発行日 2025-04-15 02:20:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Constraint-Aware Zero-Shot Vision-Language Navigation in Continuous Environments はコメントを受け付けていません

GPS: Distilling Compact Memories via Grid-based Patch Sampling for Efficient Online Class-Incremental Learning

要約

オンラインクラスインクリメンタル学習は、壊滅的な忘却を緩和しながら、過去のデータへのアクセスが制限されている新しいクラスに継続的に適応できるようにすることを目的としています。
リプレイベースの方法は、以前のサンプルの小さなメモリバッファーを維持し、競争力のあるパフォーマンスを達成することにより、これに対処します。
制約付きストレージの下で効果的なリプレイのために、最近のアプローチは蒸留データを活用して、メモリの情報性を高めます。
ただし、このようなアプローチには、バイレベルの最適化の使用により、多くの場合、大幅な計算オーバーヘッドが含まれます。
これらの制限に動機付けられて、訓練可能なモデルに頼らずに有益なメモリサンプルを蒸留するための軽量で効果的な戦略であるグリッドベースのパッチサンプリング(GPS)を導入します。
GPSは、元の画像からピクセルのサブセットをサンプリングすることにより、有益なサンプルを生成し、セマンティックコンテンツと構造情報の両方を保存するコンパクトな低解像度表現を生成します。
リプレイ中、これらの表現はトレーニングと評価をサポートするために再組み立てされています。
大規模なベンチマークでの実験は、GRSを既存のリプレイフレームワークにシームレスに統合できることを示しており、計算オーバーヘッドが制限されているメモリが制限された設定での平均終了精度を3%〜4%改善します。

要約(オリジナル)

Online class-incremental learning aims to enable models to continuously adapt to new classes with limited access to past data, while mitigating catastrophic forgetting. Replay-based methods address this by maintaining a small memory buffer of previous samples, achieving competitive performance. For effective replay under constrained storage, recent approaches leverage distilled data to enhance the informativeness of memory. However, such approaches often involve significant computational overhead due to the use of bi-level optimization. Motivated by these limitations, we introduce Grid-based Patch Sampling (GPS), a lightweight and effective strategy for distilling informative memory samples without relying on a trainable model. GPS generates informative samples by sampling a subset of pixels from the original image, yielding compact low-resolution representations that preserve both semantic content and structural information. During replay, these representations are reassembled to support training and evaluation. Experiments on extensive benchmarks demonstrate that GRS can be seamlessly integrated into existing replay frameworks, leading to 3%-4% improvements in average end accuracy under memory-constrained settings, with limited computational overhead.

arxiv情報

著者 Mingchuan Ma,Yuhao Zhou,Jindi Lv,Yuxin Tian,Dan Si,Shujian Li,Qing Ye,Jiancheng Lv
発行日 2025-04-15 03:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GPS: Distilling Compact Memories via Grid-based Patch Sampling for Efficient Online Class-Incremental Learning はコメントを受け付けていません

Bi-directional Momentum-based Haptic Feedback and Control System for In-Hand Dexterous Telemanipulation

要約

手元の器用なテレマニピュレーションには、ロボットの正確なリモートモーション制御だけでなく、人間のオペレーターに対する効果的な触覚フィードバックも必要です。
器用なテレマニュートのための既存の触覚デバイスのほとんどは、オブジェクトの回転を含むタスクに不可欠な効果的なトルクレンダリングに焦点を当て、効果的なトルクレンダリングを欠いています。
ギア付きモーターや機械的に結合したアクチュエーターに基づくものなど、仮想現実アプリケーションのいくつかのトルクフィードバックソリューションが調査されていますが、多くの場合、かさばる機械設計に依存して、ポータブルまたは手元のアプリケーションでの使用を制限します。
このホワイトペーパーでは、リアルタイムサイズの運動量作用メカニズムを利用してリアルタイムの触覚とトルクのフィードバックを可能にする双方向運動量ベースの触覚フィードバックおよび制御(BI-HAP)システムを提案します。
また、BIHAPシステムは、慣性測定ユニット(IMU)を統合して、人間の操作コマンドを抽出して、閉ループ学習ベースのテレマニュピュレーションフレームワークを確立します。
さらに、異なるエラーカテゴリでオペレーターの知覚とタスクのパフォーマンスを強化するために、エラー適応フィードバック戦略が導入されています。
実験的評価は、BI-HAPが遅延(遅延<0.025秒)および非常に正確なトルクフィードバック(RMSE <0.010 nm)に続いて低コマンドでフィードバック能力を達成したことを示しています。

要約(オリジナル)

In-hand dexterous telemanipulation requires not only precise remote motion control of the robot but also effective haptic feedback to the human operator to ensure stable and intuitive interactions between them. Most existing haptic devices for dexterous telemanipulation focus on force feedback and lack effective torque rendering, which is essential for tasks involving object rotation. While some torque feedback solutions in virtual reality applications-such as those based on geared motors or mechanically coupled actuators-have been explored, they often rely on bulky mechanical designs, limiting their use in portable or in-hand applications. In this paper, we propose a Bi-directional Momentum-based Haptic Feedback and Control (Bi-Hap) system that utilizes a palm-sized momentum-actuated mechanism to enable real-time haptic and torque feedback. The Bi-Hap system also integrates an Inertial Measurement Unit (IMU) to extract the human’s manipulation command to establish a closed-loop learning-based telemanipulation framework. Furthermore, an error-adaptive feedback strategy is introduced to enhance operator perception and task performance in different error categories. Experimental evaluations demonstrate that Bi-Hap achieved feedback capability with low command following latency (Delay < 0.025 s) and highly accurate torque feedback (RMSE < 0.010 Nm).

arxiv情報

著者 Haoyang Wang,Haoran Guo,He Ba,Zhengxiong Li,Lingfeng Tao
発行日 2025-04-13 21:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bi-directional Momentum-based Haptic Feedback and Control System for In-Hand Dexterous Telemanipulation はコメントを受け付けていません

UruBots RoboCup Work Team Description Paper

要約

この作品は、Robocup Work Leagueのチーム説明論文を提示します。
私たちのチームであるUrubotsは、過去3年間、研究と競争のためのロボットとプロジェクトを開発しており、ウルグアイと世界中のロボット競技に参加しています。
この例では、Robocup Work Categoryに参加して貢献することを目指しており、この有名な競争でデビューすることを願っています。
そのために、私たちはリムジンロボットに基づいたアプローチを提示します。その主な特徴は、ホイールとトラックを備えたハイブリッド運動システムであり、ロボットの機能を補完するためにチームによっていくつかの追加が追加されています。
全体として、私たちのアプローチにより、ロボットは、オブジェクトを操作し、自律ナビゲーションを実行し、シミュレートされた産業環境に従事する機能を備えた、作業シナリオを効率的かつ自律的にナビゲートすることができます。

要約(オリジナル)

This work presents a team description paper for the RoboCup Work League. Our team, UruBots, has been developing robots and projects for research and competitions in the last three years, attending robotics competitions in Uruguay and around the world. In this instance, we aim to participate and contribute to the RoboCup Work category, hopefully making our debut in this prestigious competition. For that, we present an approach based on the Limo robot, whose main characteristic is its hybrid locomotion system with wheels and tracks, with some extras added by the team to complement the robot’s functionalities. Overall, our approach allows the robot to efficiently and autonomously navigate a Work scenario, with the ability to manipulate objects, perform autonomous navigation, and engage in a simulated industrial environment.

arxiv情報

著者 Hiago Sodre,Juan Deniz,Pablo Moraes,William Moraes,Igor Nunes,Vincent Sandin,Ahilen Mazondo,Santiago Fernandez,Gabriel da Silva,Monica Rodriguez,Sebastian Barcelona,Ricardo Grando
発行日 2025-04-13 23:37:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | UruBots RoboCup Work Team Description Paper はコメントを受け付けていません