Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

要約

Captchasは、実際のアプリケーションにWebエージェントを展開するための重要なボトルネックであり、エンドツーエンドの自動化タスクの完了をブロックすることがよくあります。
現代のマルチモーダルLLMエージェントは、静的な知覚タスクで印象的なパフォーマンスを実証していますが、Captchasのようなインタラクティブでマルチステップの推論の課題を処理する能力はほとんどテストされていません。
このギャップに対処するために、多様で動的なキャプチャパズルを通じてMLLMを搭載したエージェントの視覚的推論と相互作用機能を評価するために特別に設計された最初のWebベースのベンチマークとプラットフォームであるOpen CaptChaworldを紹介します。
私たちのベンチマークは、合計225のキャプチャタイプにまたがっており、合計225のキャプチャが提案されています。これは、各パズルを解決するために必要な認知および運動ステップの数を定量化するCAPTCHA推論の深さです。
実験結果は、人間が一貫してほぼ完璧なスコアを達成し、最先端のMLLMエージェントが大幅に苦労し、ブラウザ使用のOpenai-O3で最大40.0%、人間レベルのパフォーマンスをはるかに下回る93.3%で成功率を達成することを示しています。
これは、現在のマルチモーダルエージェントの限界を診断し、より堅牢なマルチモーダル推論システムの開発を導くための重要なベンチマークとしてOpen CaptChaworldを強調しています。
コードとデータは、このHTTPS URLで利用できます。

要約(オリジナル)

CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.

arxiv情報

著者 Yaxin Luo,Zhaoyi Li,Jiacheng Liu,Jiacheng Cui,Xiaohan Zhao,Zhiqiang Shen
発行日 2025-05-30 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents はコメントを受け付けていません

Keyed Chaotic Masking: A Functional Privacy Framework for Neural Inference

要約

この作業では、暗号化されたカオスダイナミカルシステムに由来する決定論的でユーザー固有の難読化方法を決定したカオスティックマスキングに基づいて、プライバシーを提供するニューラルネットワーク推論のための軽量フレームワークを紹介します。
このアプローチは、キーコンディショニングされたグラフダイナミクスを使用して、入力テンソルにマスクを適用し、モデルアーキテクチャを変更せずに認証された推論、ユーザーの帰属、ソフト出力の透かしを可能にします。
各マスクを生成するために使用される基礎となる混oticとしたシステムは、分析的に反転可能ではありませんが、マスキング操作自体は、正式な暗号化の保証なしで機能的なプライバシーを提供する認定キーホルダーによって代数的に可逆的です。
従来の暗号化や安全なマルチパーティ計算とは異なり、この方法は連続空間で動作し、最小限の計算オーバーヘッドを課します。
グラフサンプリング、動的ルールの選択、カオス診断など、マスキングシステムの構築について説明します。
アプリケーションには、共有モデルパイプラインでのプライバシーを提供する推論、安全なデータ貢献、およびユーザーごとの透かしが含まれます。
このフレームワークは、最新のAIシステムにおけるユーザー制御プライバシーのための実用的でモジュール式のビルディングブロックを提供します。

要約(オリジナル)

This work introduces a lightweight framework for privacy-preserving neural network inference based on keyed chaotic masking a deterministic, user-specific obfuscation method derived from cryptographically seeded chaotic dynamical systems. The approach applies masks to input and output tensors using key-conditioned graph dynamics, enabling authenticated inference, user attribution, and soft output watermarking without modifying model architectures. While the underlying chaotic system used to generate each mask is not analytically invertible, the masking operation itself is algebraically reversible by authorized key holders, offering functional privacy without formal cryptographic guarantees. Unlike traditional encryption or secure multi-party computation, this method operates in continuous space and imposes minimal computational overhead. We describe the construction of the masking system, including graph sampling, dynamical rule selection, and chaos diagnostics. Applications include privacy-preserving inference, secure data contribution, and per-user watermarking in shared model pipelines. This framework offers a practical and modular building block for user-controlled privacy in modern AI systems.

arxiv情報

著者 Peter David Fagan
発行日 2025-05-30 10:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37N25, 68T05, 94A60, cs.AI, cs.CR, D.4.6 | Keyed Chaotic Masking: A Functional Privacy Framework for Neural Inference はコメントを受け付けていません

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

要約

このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量で完全にオープンソースのベースラインであるOpenuniを紹介します。
統一されたモデル学習における一般的なプラクティスに触発された私たちは、学習可能なクエリと軽量のトランスベースのコネクタを介して、既製のマルチモーダル大手言語モデル(LLMS)と拡散モデルを橋渡しすることにより、トレーニングの複雑さとオーバーヘッドを最小限に抑える効率的なトレーニング戦略を採用します。
アーキテクチャの最小限の選択により、Openuniは次のことを実証します。1)高品質および命令整列画像を生成し、2)Geneval、DPG-Bench、Wiseなどの標準ベンチマークで優れたパフォーマンスを実現し、1.1bおよび3.1bのアクティブ化されたパラメーターのみを備えています。
オープンな研究とコミュニティの進歩をサポートするために、https://github.com/wusize/openuniで、すべてのモデルの重み、トレーニングコード、キュレーションされたトレーニングデータセット(23mの画像テキストペアを含む)をリリースします。

要約(オリジナル)

In this report, we present OpenUni, a simple, lightweight, and fully open-source baseline for unifying multimodal understanding and generation. Inspired by prevailing practices in unified model learning, we adopt an efficient training strategy that minimizes the training complexity and overhead by bridging the off-the-shelf multimodal large language models (LLMs) and diffusion models through a set of learnable queries and a light-weight transformer-based connector. With a minimalist choice of architecture, we demonstrate that OpenUni can: 1) generate high-quality and instruction-aligned images, and 2) achieve exceptional performance on standard benchmarks such as GenEval, DPG- Bench, and WISE, with only 1.1B and 3.1B activated parameters. To support open research and community advancement, we release all model weights, training code, and our curated training datasets (including 23M image-text pairs) at https://github.com/wusize/OpenUni.

arxiv情報

著者 Size Wu,Zhonghua Wu,Zerui Gong,Qingyi Tao,Sheng Jin,Qinyue Li,Wei Li,Chen Change Loy
発行日 2025-05-30 12:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation はコメントを受け付けていません

ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

要約

フィードフォワード3Dガウススプラッティング(3DGS)モデルは最近、新しいビュー合成の有望なソリューションとして浮上し、シーンごとの3DGS最適化を必要とせずにワンパス推論を可能にします。
ただし、それらのスケーラビリティは、エンコーダーの限られた容量によって根本的に制約されており、入力ビューの数が増えるにつれて、パフォーマンスが低下したり、過度のメモリ消費量になります。
この作業では、情報ボトルネック原理のレンズを介してフィードフォワード3DGSフレームワークを分析し、Zpressorを導入します。これは、マルチビュー入力の効率的な圧縮をコンパクトな潜在状態$ Z $に効率的に圧縮することを可能にし、不可欠なシーン情報を保持しながら、リダンスを捨てます。
具体的には、Zpressorは、既存のフィードフォワード3DGSモデルを、80GB GPUの480p解像度で480p解像度で100を超える入力ビューにスケーリングできます。ビューをアンカーとサポートセットに分割し、サポートビューから情報をアンカービューに圧縮し、圧縮された潜在状態$ Z $を形成することにより、100を超える入力ビューにスケーリングできます。
ZPressorをいくつかの最先端のフィードフォワード3DGSモデルに統合すると、中程度の入力ビューの下でのパフォーマンスが一貫して改善され、2つの大規模なベンチマークDL3DV-10KとRealestate10Kの密なビュー設定の下で堅牢性が向上することを示します。
ビデオの結果、コード、トレーニングモデルは、プロジェクトページhttps://lhmd.top/zpressorで入手できます。

要約(オリジナル)

Feed-forward 3D Gaussian Splatting (3DGS) models have recently emerged as a promising solution for novel view synthesis, enabling one-pass inference without the need for per-scene 3DGS optimization. However, their scalability is fundamentally constrained by the limited capacity of their encoders, leading to degraded performance or excessive memory consumption as the number of input views increases. In this work, we analyze feed-forward 3DGS frameworks through the lens of the Information Bottleneck principle and introduce ZPressor, a lightweight architecture-agnostic module that enables efficient compression of multi-view inputs into a compact latent state $Z$ that retains essential scene information while discarding redundancy. Concretely, ZPressor enables existing feed-forward 3DGS models to scale to over 100 input views at 480P resolution on an 80GB GPU, by partitioning the views into anchor and support sets and using cross attention to compress the information from the support views into anchor views, forming the compressed latent state $Z$. We show that integrating ZPressor into several state-of-the-art feed-forward 3DGS models consistently improves performance under moderate input views and enhances robustness under dense view settings on two large-scale benchmarks DL3DV-10K and RealEstate10K. The video results, code and trained models are available on our project page: https://lhmd.top/zpressor.

arxiv情報

著者 Weijie Wang,Donny Y. Chen,Zeyu Zhang,Duochao Shi,Akide Liu,Bohan Zhuang
発行日 2025-05-30 06:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS はコメントを受け付けていません

Automatic classification of stop realisation with wav2vec2.0

要約

現代の音声研究は、音声データの注釈のために自動ツールを定期的に使用していますが、多くの可変音声現象の注釈にはほとんど存在しません。
同時に、WAV2VEC2.0などの事前に訓練された自己監視モデルは、音声分類タスクでうまく機能し、微妙に細粒の音声情報をエンコードすることが示されています。
WAV2VEC2.0モデルをトレーニングして、英語と日本語の両方で高精度で停止バーストの存在を自動的に分類できることを実証します。
停止実現における変動性のパターンは、自動注釈で複製され、手動注釈のパターンに密接に従います。
これらの結果は、スピーチコーパスデータの自動注釈と処理のツールとしての事前に訓練された音声モデルの可能性を示しており、研究者が比較的容易に音声研究の範囲を「スケールアップ」できるようにします。

要約(オリジナル)

Modern phonetic research regularly makes use of automatic tools for the annotation of speech data, however few tools exist for the annotation of many variable phonetic phenomena. At the same time, pre-trained self-supervised models, such as wav2vec2.0, have been shown to perform well at speech classification tasks and latently encode fine-grained phonetic information. We demonstrate that wav2vec2.0 models can be trained to automatically classify stop burst presence with high accuracy in both English and Japanese, robust across both finely-curated and unprepared speech corpora. Patterns of variability in stop realisation are replicated with the automatic annotations, and closely follow those of manual annotations. These results demonstrate the potential of pre-trained speech models as tools for the automatic annotation and processing of speech corpus data, enabling researchers to ‘scale-up’ the scope of phonetic research with relative ease.

arxiv情報

著者 James Tanner,Morgan Sonderegger,Jane Stuart-Smith,Jeff Mielke,Tyler Kendall
発行日 2025-05-30 03:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Automatic classification of stop realisation with wav2vec2.0 はコメントを受け付けていません

Anomalies by Synthesis: Anomaly Detection using Generative Diffusion Models for Off-Road Navigation

要約

オフロードおよび非構造化されていない環境で安全かつ確実にナビゲートするために、ロボットはトレーニングデータに関して分散型(OOD)の異常を検出する必要があります。
OODデータの性質について仮定することなく、ピクセルごとの異常検出の分析ごとのアプローチを提示します。
入力画像が与えられた場合、生成的拡散モデルを使用して、残りの画像を変更せずに異常を削除する編集された画像を合成します。
次に、拡散モデルによってどの画像セグメントが変更されたかを分析する際に、異常検出を定式化します。
理想的なガイダンス勾配を分析し、拡散モデルをブートストラップしてガイダンス勾配を予測する原則的な近似を導き出すことにより、誘導拡散のための新しい推論アプローチを提案します。
編集手法は、再訓練や微調整を必要とせずに既存のワークフローに統合できる純粋にテスト時間です。
最後に、Vision-Language Foundationモデルの組み合わせを使用して、学習された機能空間のピクセルを比較し、意味的に意味のある編集を検出し、オフロードナビゲーションの正確な異常検出を可能にします。
プロジェクトのウェブサイト:https://siddancha.github.io/anomalies-by-diffusion-synthesis/

要約(オリジナル)

In order to navigate safely and reliably in off-road and unstructured environments, robots must detect anomalies that are out-of-distribution (OOD) with respect to the training data. We present an analysis-by-synthesis approach for pixel-wise anomaly detection without making any assumptions about the nature of OOD data. Given an input image, we use a generative diffusion model to synthesize an edited image that removes anomalies while keeping the remaining image unchanged. Then, we formulate anomaly detection as analyzing which image segments were modified by the diffusion model. We propose a novel inference approach for guided diffusion by analyzing the ideal guidance gradient and deriving a principled approximation that bootstraps the diffusion model to predict guidance gradients. Our editing technique is purely test-time that can be integrated into existing workflows without the need for retraining or fine-tuning. Finally, we use a combination of vision-language foundation models to compare pixels in a learned feature space and detect semantically meaningful edits, enabling accurate anomaly detection for off-road navigation. Project website: https://siddancha.github.io/anomalies-by-diffusion-synthesis/

arxiv情報

著者 Siddharth Ancha,Sunshine Jiang,Travis Manderson,Laura Brandt,Yilun Du,Philip R. Osteen,Nicholas Roy
発行日 2025-05-28 19:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Anomalies by Synthesis: Anomaly Detection using Generative Diffusion Models for Off-Road Navigation はコメントを受け付けていません

GrowSplat: Constructing Temporal Digital Twins of Plants with Gaussian Splats

要約

植物の成長の正確な時間的再構成は、植物の表現型と繁殖には不可欠ですが、植物の複雑な幾何学、閉塞、非剛性の変形のために困難なままです。
3Dガウスのスプラッティングと堅牢なサンプルアライメントパイプラインを組み合わせることにより、植物の一時的なデジタルツインを構築するための新しいフレームワークを提示します。
私たちの方法は、マルチビューカメラデータからガウススプラットを再構築し、2段階の登録アプローチを活用することから始まります。機能ベースのマッチングと高速グローバル登録を介した粗いアラインメント、続いて反復的な最近のポイントとの微細なアライメントです。
このパイプラインは、個別のタイムステップで植物開発の一貫した4Dモデルを生成します。
オランダプラントエコ表現型センターのデータに関するアプローチを評価し、セコイア種とキノア種の詳細な時間的再構成を実証します。
ビデオと画像はhttps://berkeleyautomation.github.io/growsplat/で見ることができます

要約(オリジナル)

Accurate temporal reconstructions of plant growth are essential for plant phenotyping and breeding, yet remain challenging due to complex geometries, occlusions, and non-rigid deformations of plants. We present a novel framework for building temporal digital twins of plants by combining 3D Gaussian Splatting with a robust sample alignment pipeline. Our method begins by reconstructing Gaussian Splats from multi-view camera data, then leverages a two-stage registration approach: coarse alignment through feature-based matching and Fast Global Registration, followed by fine alignment with Iterative Closest Point. This pipeline yields a consistent 4D model of plant development in discrete time steps. We evaluate the approach on data from the Netherlands Plant Eco-phenotyping Center, demonstrating detailed temporal reconstructions of Sequoia and Quinoa species. Videos and Images can be seen at https://berkeleyautomation.github.io/GrowSplat/

arxiv情報

著者 Simeon Adebola,Shuangyu Xie,Chung Min Kim,Justin Kerr,Bart M. van Marrewijk,Mieke van Vlaardingen,Tim van Daalen,E. N. van Loo,Jose Luis Susa Rincon,Eugen Solowjow,Rick van de Zedde,Ken Goldberg
発行日 2025-05-28 20:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GrowSplat: Constructing Temporal Digital Twins of Plants with Gaussian Splats はコメントを受け付けていません

Semantic Exploration and Dense Mapping of Complex Environments using Ground Robots Equipped with LiDAR and Panoramic Camera

要約

このペーパーでは、Lidar-Panoramic Camera Suiteを装備した地上ロボットを使用して、自律的なセマンティック探査と密集したセマンティックターゲットマッピングのシステムを紹介します。
既存のアプローチは、複数のビュー角から高品質の観測を収集し、不必要な繰り返しトラバーサルを回避するのに苦労しています。
このギャップを埋めるために、マッピングと計画を組み合わせた完全なシステムを提案します。
最初に、幾何学的なカバレッジとセマンティックビューポイントの観察の両方を完了するとしてタスクを再定義します。
次に、セマンティックビューと幾何学的視点を個別に管理し、新しい優先順位駆動型のデカップされたローカルサンプラーを提案して、ローカルビューポイントセットを生成します。
これにより、不必要な繰り返しなしで明示的なマルチビューセマンティック検査とボクセルカバレッジが可能になります。
これに基づいて、効率的なグローバルなカバレッジを確保するために、階層プランナーを開発します。
さらに、安全な積極的な探索状態マシンを提案します。これにより、ロボットの安全性を確保しながら、積極的な探索動作が可能になります。
当社のシステムには、PointCloudレベルの高密度セマンティックマッピングの最先端のスラムアルゴリズムとシームレスに統合されるプラグアンドプレイセマンティックターゲットマッピングモジュールが含まれています。
現実的なシミュレーションと複雑な現実世界環境の両方での広範な実験を通じて、アプローチを検証します。
シミュレーション結果は、プランナーが指定された数のマルチビュー検査を保証しながら、より速い探索とより短い移動距離を達成することを示しています。
実際の実験は、非構造化環境の正確な密度のセマンティックオブジェクトマッピングを達成する際のシステムの有効性をさらに確認します。

要約(オリジナル)

This paper presents a system for autonomous semantic exploration and dense semantic target mapping of a complex unknown environment using a ground robot equipped with a LiDAR-panoramic camera suite. Existing approaches often struggle to balance collecting high-quality observations from multiple view angles and avoiding unnecessary repetitive traversal. To fill this gap, we propose a complete system combining mapping and planning. We first redefine the task as completing both geometric coverage and semantic viewpoint observation. We then manage semantic and geometric viewpoints separately and propose a novel Priority-driven Decoupled Local Sampler to generate local viewpoint sets. This enables explicit multi-view semantic inspection and voxel coverage without unnecessary repetition. Building on this, we develop a hierarchical planner to ensure efficient global coverage. In addition, we propose a Safe Aggressive Exploration State Machine, which allows aggressive exploration behavior while ensuring the robot’s safety. Our system includes a plug-and-play semantic target mapping module that integrates seamlessly with state-of-the-art SLAM algorithms for pointcloud-level dense semantic target mapping. We validate our approach through extensive experiments in both realistic simulations and complex real-world environments. Simulation results show that our planner achieves faster exploration and shorter travel distances while guaranteeing a specified number of multi-view inspections. Real-world experiments further confirm the system’s effectiveness in achieving accurate dense semantic object mapping of unstructured environments.

arxiv情報

著者 Xiaoyang Zhan,Shixin Zhou,Qianqian Yang,Yixuan Zhao,Hao Liu,Srinivas Chowdary Ramineni,Kenji Shimada
発行日 2025-05-28 21:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Semantic Exploration and Dense Mapping of Complex Environments using Ground Robots Equipped with LiDAR and Panoramic Camera はコメントを受け付けていません

TwinTrack: Bridging Vision and Contact Physics for Real-Time Tracking of Unknown Dynamic Objects

要約

手元の操作中など、接触が豊富な環境で以前に見えなかった非常に動的なオブジェクトのリアルタイム追跡は、依然として重要な課題です。
純粋に視力ベースの追跡は、接触衝撃中の突然の動きによって引き起こされる頻繁な接触相互作用と運動のぼやけにより、重い閉塞に苦しむことがよくあります。
観察されたシーンの接触物理学を活用することにより、接触豊富なシーンで不明な動的オブジェクトの堅牢でリアルタイムの6-DOFポーズトラッキングを可能にする物理的に認識される視覚追跡フレームワークであるTwintrackを提案します。
Twintrackの中核には、Real2SimとSim2Realの統合があります。
Real2Simでは、視力と接触物理学の相補的強度を組み合わせて、オブジェクトの衝突ジオメトリと物理的特性を推定します。オブジェクトのジオメトリは、視覚から最初に再構築され、次に物理的精度のために接触ダイナミクスからの他の物理パラメーターとともに更新されます。
Sim2realでは、視覚追跡と学習した接触物理学の予測の間の適応融合によってオブジェクトの堅牢なポーズ推定が達成されます。
TwinTrackは、リアルタイムのパフォーマンスを確保するために、GPUが加速し、深くカスタマイズされた物理学エンジンの上に構築されています。
2つの接触豊富なシナリオでの方法を評価します。環境に対する豊富な接触の影響で落ちるオブジェクトと、接触が豊富な手の操作です。
実験結果は、ベースラインの方法と比較して、Twintrackがこれらの困難なシナリオでより堅牢で正確でリアルタイムの6-DOF追跡を達成し、追跡速度が20 Hzを超えることを示しています。
プロジェクトページ:https://irislab.tech/twintrack-webpage/

要約(オリジナル)

Real-time tracking of previously unseen, highly dynamic objects in contact-rich environments — such as during dexterous in-hand manipulation — remains a significant challenge. Purely vision-based tracking often suffers from heavy occlusions due to the frequent contact interactions and motion blur caused by abrupt motion during contact impacts. We propose TwinTrack, a physics-aware visual tracking framework that enables robust and real-time 6-DoF pose tracking of unknown dynamic objects in a contact-rich scene by leveraging the contact physics of the observed scene. At the core of TwinTrack is an integration of Real2Sim and Sim2Real. In Real2Sim, we combine the complementary strengths of vision and contact physics to estimate object’s collision geometry and physical properties: object’s geometry is first reconstructed from vision, then updated along with other physical parameters from contact dynamics for physical accuracy. In Sim2Real, robust pose estimation of the object is achieved by adaptive fusion between visual tracking and prediction of the learned contact physics. TwinTrack is built on a GPU-accelerated, deeply customized physics engine to ensure real-time performance. We evaluate our method on two contact-rich scenarios: object falling with rich contact impacts against the environment, and contact-rich in-hand manipulation. Experimental results demonstrate that, compared to baseline methods, TwinTrack achieves significantly more robust, accurate, and real-time 6-DoF tracking in these challenging scenarios, with tracking speed exceeding 20 Hz. Project page: https://irislab.tech/TwinTrack-webpage/

arxiv情報

著者 Wen Yang,Zhixian Xie,Xuechao Zhang,Heni Ben Amor,Shan Lin,Wanxin Jin
発行日 2025-05-28 21:32:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TwinTrack: Bridging Vision and Contact Physics for Real-Time Tracking of Unknown Dynamic Objects はコメントを受け付けていません

Spring-Brake! Handed Shearing Auxetics Improve Efficiency of Hopping and Standing

要約

エネルギー効率は、脚のあるロボット工学の成功にとって重要です。
効率は、運動と地位の際に無駄なエネルギーによって失われます。
弾性要素を含めることは移動コストを削減することが示されていますが、休憩を含めると常任コストを削減できます。
ただし、それぞれに個別の要素を追加すると、脚の質量と複雑さが増加し、システム全体のパフォーマンスが低下します。
ここでは、モノポッドホッピングロボットでスプリングとブレークとして機能する、手渡したせん断補助術(HSA)を使用した新しい準拠メカニズムを提示します。
HSAは並列弾性アクチュエータとして機能し、動的ホッピングのための電力を低下させ、最先端のコンプライアントホッパーの効率を一致させます。
HSA \ u2019S補助挙動は、二重の機能を可能にします。
静的タスク中に、変形をブロックすることにより、最小限の入力力で大きな力の下でロックされ、カプスタンメカニズムと同様の高い摩擦が生じます。
これにより、脚はモータートルクなしで重い負荷をサポートし、熱効率に対処できます。
多機能設計により、動的性能と静的パフォーマンスの両方が向上し、ロボットアプリケーションに汎用性の高いソリューションが提供されます。

要約(オリジナル)

Energy efficiency is critical to the success of legged robotics. Efficiency is lost through wasted energy during locomotion and standing. Including elastic elements has been shown to reduce movement costs, while including breaks can reduce standing costs. However, adding separate elements for each increases the mass and complexity of a leg, reducing overall system performance. Here we present a novel compliant mechanism using a Handed Shearing Auxetic (HSA) that acts as a spring and break in a monopod hopping robot. The HSA acts as a parallel elastic actuator, reducing electrical power for dynamic hopping and matching the efficiency of state-of-the-art compliant hoppers. The HSA\u2019s auxetic behavior enables dual functionality. During static tasks, it locks under large forces with minimal input power by blocking deformation, creating high friction similar to a capstan mechanism. This allows the leg to support heavy loads without motor torque, addressing thermal inefficiency. The multi-functional design enhances both dynamic and static performance, offering a versatile solution for robotic applications.

arxiv情報

著者 Joseph Sullivan,Ian Good,Samuel A. Burden,Jeffrey Ian Lipton
発行日 2025-05-28 22:01:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Spring-Brake! Handed Shearing Auxetics Improve Efficiency of Hopping and Standing はコメントを受け付けていません