ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

要約

チャート理解は、洗練されたテキストと視覚の推論機能の統合が必要なため、大規模なビジョン言語モデル(LVLMS)にとってユニークな課題です。
ただし、現在のLVLMは、これらのスキルの間に顕著な不均衡を示し、テキストで実行するのが難しい視覚的推論に不足しています。
視覚的推論を通じてのみ解決可能な合成データセットを使用してケーススタディを実施し、モデルのパフォーマンスが視覚的な複雑さの増加とともに大幅に低下しますが、人間のパフォーマンスは堅牢なままです。
次に、複雑な視覚およびテキストの推論を評価するために特別に構築された、実際の世界チャートからキュレーションされた複数の推論タイプに及ぶ1,162の専門家と発音の質問を含む新しいチャート質問(QA)ベンチマークであるChartmuseumを紹介します。
フロンティアモデルが同様に飽和し、飽和に近い場合の以前のチャート理解ベンチマークとは異なり、私たちのベンチマークはモデルと人間のパフォーマンスの間に実質的なギャップを暴露しますが、モデル機能を効果的に区別します。人間は93%の精度を達成しますが、Gemini-2.5-Proは63.0%しか獲得していません。
38.5%。
さらに、主に視覚的な推論を必要とする質問では、すべてのモデルがテキストの季節が多い質問パフォーマンスから35%〜55%のパフォーマンスが低下します。
最後に、定性的エラー分析では、現在のLVLMに挑戦する視覚的推論の特定のカテゴリが明らかになります。

要約(オリジナル)

Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requires the integration of sophisticated textual and visual reasoning capabilities. However, current LVLMs exhibit a notable imbalance between these skills, falling short on visual reasoning that is difficult to perform in text. We conduct a case study using a synthetic dataset solvable only through visual reasoning and show that model performance degrades significantly with increasing visual complexity, while human performance remains robust. We then introduce ChartMuseum, a new Chart Question Answering (QA) benchmark containing 1,162 expert-annotated questions spanning multiple reasoning types, curated from real-world charts across 184 sources, specifically built to evaluate complex visual and textual reasoning. Unlike prior chart understanding benchmarks — where frontier models perform similarly and near saturation — our benchmark exposes a substantial gap between model and human performance, while effectively differentiating model capabilities: although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct achieves only 38.5%. Moreover, on questions requiring primarily visual reasoning, all models experience a 35%-55% performance drop from text-reasoning-heavy question performance. Lastly, our qualitative error analysis reveals specific categories of visual reasoning that are challenging for current LVLMs.

arxiv情報

著者 Liyan Tang,Grace Kim,Xinyu Zhao,Thom Lake,Wenxuan Ding,Fangcong Yin,Prasann Singhal,Manya Wadhwa,Zeyu Leo Liu,Zayne Sprague,Ramya Namuduri,Bodun Hu,Juan Diego Rodriguez,Puyuan Peng,Greg Durrett
発行日 2025-05-19 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models はコメントを受け付けていません

Mean Flows for One-step Generative Modeling

要約

ワンステップ生成モデリングの原則的かつ効果的なフレームワークを提案します。
流れの一致方法によってモデル化された瞬間速度とは対照的に、流れ場を特徴付ける平均速度の概念を導入します。
平均速度と瞬間的な速度の間の明確に定義されたアイデンティティが導き出され、ニューラルネットワークトレーニングを導くために使用されます。
私たちの方法は、平均流モデルと呼ばれ、自己完結型であり、トレーニング前、蒸留、またはカリキュラム学習を必要としません。
Fienflowは強力な経験的パフォーマンスを示しています。これは、ゼロから訓練されたImagenet 256×256で単一の関数評価(1-NFE)で3.43のFIDを達成し、以前の最先端のワンステップ拡散/フローモデルを大幅に上回ります。
私たちの研究は、ワンステップ拡散/フローモデルとそのマルチステップの前任者との間のギャップを大幅に絞り込んでおり、これらの強力なモデルの基礎を再訪するために将来の研究を動機付けることを願っています。

要約(オリジナル)

We propose a principled and effective framework for one-step generative modeling. We introduce the notion of average velocity to characterize flow fields, in contrast to instantaneous velocity modeled by Flow Matching methods. A well-defined identity between average and instantaneous velocities is derived and used to guide neural network training. Our method, termed the MeanFlow model, is self-contained and requires no pre-training, distillation, or curriculum learning. MeanFlow demonstrates strong empirical performance: it achieves an FID of 3.43 with a single function evaluation (1-NFE) on ImageNet 256×256 trained from scratch, significantly outperforming previous state-of-the-art one-step diffusion/flow models. Our study substantially narrows the gap between one-step diffusion/flow models and their multi-step predecessors, and we hope it will motivate future research to revisit the foundations of these powerful models.

arxiv情報

著者 Zhengyang Geng,Mingyang Deng,Xingjian Bai,J. Zico Kolter,Kaiming He
発行日 2025-05-19 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Mean Flows for One-step Generative Modeling はコメントを受け付けていません

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

要約

ロボットタスク計画は、ロボットが一連の複雑なタスクを完了できるようにする実行可能なアクションシーケンスに人間の命令を分解します。
最近の大規模な言語モデル(LLM)ベースのタスクプランナーは驚くべきパフォーマンスを達成していますが、人間の指示は明確で簡単であると仮定しています。
ただし、実際のユーザーは専門家ではなく、ロボットへの指示には多くの場合、かなりのあいまいさが含まれています。
言語学者は、そのようなあいまいさは、対話の文脈と環境に大きく依存する表現(res)を参照することから頻繁に生じることを示唆しています。
このあいまいさは、ロボットがもっとサービスを提供すべき高齢者と子供の間でさらに一般的です。
このペーパーでは、人間の指示内のRESのこのようなあいまいさが、LLMベースのロボットタスク計画にどのように影響し、この問題を克服する方法を研究しています。
この目的のために、漠然としたRES(REI-Bench)を使用した最初のロボットタスク計画ベンチマークを提案します。ここでは、RESのあいまいさがロボット計画のパフォーマンスを大幅に分解できることがわかり、成功率は最大77.9%になります。
また、ほとんどの障害ケースは、プランナーに欠落しているオブジェクトに起因することを観察します。
RESの問題を軽減するために、単純で効果的なアプローチ、タスク指向のコンテキスト認知を提案します。タスク指向のコンテキスト認知は、ロボットの明確な指示を生成し、迅速で思考のチェーンと比較して最先端のパフォーマンスを実現します。
この作業は、特に非専門家のユーザー、たとえば高齢者や子供向けに、ロボットタスク計画をより実用的にすることにより、人間とロボットの相互作用(HRI)の研究コミュニティに貢献しています。

要約(オリジナル)

Robot task planning decomposes human instructions into executable action sequences that enable robots to complete a series of complex tasks. Although recent large language model (LLM)-based task planners achieve amazing performance, they assume that human instructions are clear and straightforward. However, real-world users are not experts, and their instructions to robots often contain significant vagueness. Linguists suggest that such vagueness frequently arises from referring expressions (REs), whose meanings depend heavily on dialogue context and environment. This vagueness is even more prevalent among the elderly and children, who robots should serve more. This paper studies how such vagueness in REs within human instructions affects LLM-based robot task planning and how to overcome this issue. To this end, we propose the first robot task planning benchmark with vague REs (REI-Bench), where we discover that the vagueness of REs can severely degrade robot planning performance, leading to success rate drops of up to 77.9%. We also observe that most failure cases stem from missing objects in planners. To mitigate the REs issue, we propose a simple yet effective approach: task-oriented context cognition, which generates clear instructions for robots, achieving state-of-the-art performance compared to aware prompt and chains of thought. This work contributes to the research community of human-robot interaction (HRI) by making robot task planning more practical, particularly for non-expert users, e.g., the elderly and children.

arxiv情報

著者 Chenxi Jiang,Chuhao Zhou,Jianfei Yang
発行日 2025-05-19 17:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning? はコメントを受け付けていません

Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

要約

最適な制御または補強学習(RL)から派生した制御ポリシーの下で、閉ループシステムの安定性を証明する問題を研究します。
古典的なリアプノフ法では、リアプノフ関数の厳密な段階的な減少が必要ですが、このような証明書は、学習制御ポリシーのために構築するのが困難です。
RLポリシーに関連付けられている値関数は、自然なリアプノフ関数候補ですが、どのように変更する必要があるかは明確ではありません。
直感を得るために、まず線形二次調節因子(LQR)問題を研究し、2つの重要な観察を行います。
まず、Lyapunov関数は、システムのダイナミクスとステージコストに関連する残差用語でそれを増強することにより、LQRポリシーの値関数から取得できます。
第二に、古典的なリアプノフの減少要件は、一般化されたリアプノフ状態に緩和される可能性があり、複数の時間ステップで平均して平均して減少する必要があります。
この直感を使用して、非線形設定を検討し、ニューラルネットワーク残差項でRL値関数を増強することにより、一般化されたリアプノフ関数を学習するアプローチを策定します。
私たちのアプローチは、体育館とディープマインドコントロールベンチマークで訓練されたRLポリシーの安定性を正常に証明しています。
また、マルチステップのリアプノフ損失を使用して、ニューラルコントローラーと安定性証明書を共同でトレーニングする方法を拡張し、クラシックリアプノフアプローチと比較して、引力領域のより大きな認定内側近似をもたらします。
全体として、当社の定式化により、証明書を構築しやすくし、それにより古典的な制御理論と最新の学習ベースの方法を橋渡しすることにより、学習ポリシーを備えた幅広いクラスのシステムの安定性認証が可能になります。

要約(オリジナル)

We study the problem of certifying the stability of closed-loop systems under control policies derived from optimal control or reinforcement learning (RL). Classical Lyapunov methods require a strict step-wise decrease in the Lyapunov function but such a certificate is difficult to construct for a learned control policy. The value function associated with an RL policy is a natural Lyapunov function candidate but it is not clear how it should be modified. To gain intuition, we first study the linear quadratic regulator (LQR) problem and make two key observations. First, a Lyapunov function can be obtained from the value function of an LQR policy by augmenting it with a residual term related to the system dynamics and stage cost. Second, the classical Lyapunov decrease requirement can be relaxed to a generalized Lyapunov condition requiring only decrease on average over multiple time steps. Using this intuition, we consider the nonlinear setting and formulate an approach to learn generalized Lyapunov functions by augmenting RL value functions with neural network residual terms. Our approach successfully certifies the stability of RL policies trained on Gymnasium and DeepMind Control benchmarks. We also extend our method to jointly train neural controllers and stability certificates using a multi-step Lyapunov loss, resulting in larger certified inner approximations of the region of attraction compared to the classical Lyapunov approach. Overall, our formulation enables stability certification for a broad class of systems with learned policies by making certificates easier to construct, thereby bridging classical control theory and modern learning-based methods.

arxiv情報

著者 Kehan Long,Jorge Cortés,Nikolay Atanasov
発行日 2025-05-19 17:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC | Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions はコメントを受け付けていません

DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy

要約

衣服の操作は、衣服のカテゴリ、幾何学、変形の多様性のために重大な課題です。
それにもかかわらず、私たちの手の器用さのおかげで、人間は衣服を楽に扱うことができます。
しかし、この分野での既存の研究は、このレベルの器用さを再現するのに苦労しており、主に器用な衣服操作の現実的なシミュレーションの欠如によって妨げられています。
したがって、15のタスクシナリオ用の大規模な高品質の3Dアセットを特徴とする、器用な(特に両手)衣服操作用に特別に設計された最初の環境であるDexgarmentLabを提案し、SIM-Realギャップを減らすために衣服モデリングに合わせたシミュレーション技術を改良します。
以前のデータ収集は、通常、労働集約的で非効率的なテレオ操作またはトレーニング専門家の強化学習(RL)ポリシーに依存しています。
この論文では、衣服の構造対応を活用して、単一の専門家デモのみを使用して、多様な軌跡を備えたデータセットを自動的に生成し、手動介入を大幅に削減します。
ただし、広範なデモでさえ、衣服の無限の状態をカバーすることはできません。これにより、新しいアルゴリズムの探索が必要です。
多様な衣服の形状と変形全体の一般化を改善するために、階層的な衣服操作ポリシー(HALO)を提案します。
まず、転送可能なアフォーダンスポイントを識別して、操作領域を正確に見つけ、次に一般化可能な軌跡を生成してタスクを完了します。
私たちの方法とベースラインの広範な実験と詳細な分析を通じて、Haloは既存の方法を一貫して上回ることを実証し、他の人が失敗する形状と変形の大幅なバリエーションでさえ、以前に見えなかったインスタンスに成功裏に一般化することを実証します。
プロジェクトページは、https://wayrise.github.io/dexgarmentlab/で入手できます。

要約(オリジナル)

Garment manipulation is a critical challenge due to the diversity in garment categories, geometries, and deformations. Despite this, humans can effortlessly handle garments, thanks to the dexterity of our hands. However, existing research in the field has struggled to replicate this level of dexterity, primarily hindered by the lack of realistic simulations of dexterous garment manipulation. Therefore, we propose DexGarmentLab, the first environment specifically designed for dexterous (especially bimanual) garment manipulation, which features large-scale high-quality 3D assets for 15 task scenarios, and refines simulation techniques tailored for garment modeling to reduce the sim-to-real gap. Previous data collection typically relies on teleoperation or training expert reinforcement learning (RL) policies, which are labor-intensive and inefficient. In this paper, we leverage garment structural correspondence to automatically generate a dataset with diverse trajectories using only a single expert demonstration, significantly reducing manual intervention. However, even extensive demonstrations cannot cover the infinite states of garments, which necessitates the exploration of new algorithms. To improve generalization across diverse garment shapes and deformations, we propose a Hierarchical gArment-manipuLation pOlicy (HALO). It first identifies transferable affordance points to accurately locate the manipulation area, then generates generalizable trajectories to complete the task. Through extensive experiments and detailed analysis of our method and baseline, we demonstrate that HALO consistently outperforms existing methods, successfully generalizing to previously unseen instances even with significant variations in shape and deformation where others fail. Our project page is available at: https://wayrise.github.io/DexGarmentLab/.

arxiv情報

著者 Yuran Wang,Ruihai Wu,Yue Chen,Jiarui Wang,Jiaqi Liang,Ziyu Zhu,Haoran Geng,Jitendra Malik,Pieter Abbeel,Hao Dong
発行日 2025-05-19 07:28:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | DexGarmentLab: Dexterous Garment Manipulation Environment with Generalizable Policy はコメントを受け付けていません

MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production

要約

大規模な混合物(MOE)モデルの効率的なトレーニングに合わせた生産システムであるMegascale-Moeを紹介します。
Moeは、大きな言語モデル(LLM)を前例のないサイズにスケーリングするための有望なアーキテクチャとして浮上し、それによりモデルのパフォーマンスが向上します。
ただし、既存のMOEトレーニングシステムは、MOEモデルのエスカレートスケールとハードウェアの継続的な進化によって悪化するトレーニング効率の低下を経験します。
MOEトレーニングの強化における効率的なコミュニケーションの極めて重要な役割を認識して、Megascale-Moeは、各MOE層の注意とFFNのコミュニケーション効率の高い並列性戦略をカスタマイズし、術中レベルと術中レベルの両方で計算とオーバーラップするための総合的なアプローチを採用します。
さらに、Megascale-Moeは、調整された通信パターンを備えた通信圧縮を適用して精度を低くし、トレーニング効率をさらに向上させます。
1,440 Nvidia Hopper GPUで352B MOEモデルをトレーニングするとき、Megascale-Moeは1.41mトークン/sのトレーニングスループットを達成し、Megatron-LMと比較して効率を1.88 $ \ Times $に改善します。
MOEトレーニングの加速における運用経験を共有し、システム設計の洞察を提供することで、この作業がMOEシステムでの将来の研究を動機付けることを期待しています。

要約(オリジナル)

We present MegaScale-MoE, a production system tailored for the efficient training of large-scale mixture-of-experts (MoE) models. MoE emerges as a promising architecture to scale large language models (LLMs) to unprecedented sizes, thereby enhancing model performance. However, existing MoE training systems experience a degradation in training efficiency, exacerbated by the escalating scale of MoE models and the continuous evolution of hardware. Recognizing the pivotal role of efficient communication in enhancing MoE training, MegaScale-MoE customizes communication-efficient parallelism strategies for attention and FFNs in each MoE layer and adopts a holistic approach to overlap communication with computation at both inter- and intra-operator levels. Additionally, MegaScale-MoE applies communication compression with adjusted communication patterns to lower precision, further improving training efficiency. When training a 352B MoE model on 1,440 NVIDIA Hopper GPUs, MegaScale-MoE achieves a training throughput of 1.41M tokens/s, improving the efficiency by 1.88$\times$ compared to Megatron-LM. We share our operational experience in accelerating MoE training and hope that by offering our insights in system design, this work will motivate future research in MoE systems.

arxiv情報

著者 Chao Jin,Ziheng Jiang,Zhihao Bai,Zheng Zhong,Juncai Liu,Xiang Li,Ningxin Zheng,Xi Wang,Cong Xie,Qi Huang,Wen Heng,Yiyuan Ma,Wenlei Bao,Size Zheng,Yanghua Peng,Haibin Lin,Xuanzhe Liu,Xin Jin,Xin Liu
発行日 2025-05-19 06:12:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | MegaScale-MoE: Large-Scale Communication-Efficient Training of Mixture-of-Experts Models in Production はコメントを受け付けていません

Phare: A Safety Probe for Large Language Models

要約

大規模な言語モデル(LLMS)の安全性を確保することは責任ある展開に重要ですが、既存の評価は、障害モードの識別よりもパフォーマンスを優先することがよくあります。
幻覚と信頼性、社会的バイアス、有害なコンテンツ生成という3つの重要な側面にわたってLLMの行動を調査および評価するための多言語の診断フレームワークであるPhareを紹介します。
17の最先端のLLMの評価により、サイコファンシー、迅速な感度、ステレオタイプの生殖など、すべての安全性の次元にわたって体系的な脆弱性のパターンが明らかになります。
単にモデルをランキングするのではなく、これらの特定の障害モードを強調することにより、Phareは研究者と実践者に、より堅牢で整列した、信頼できる言語システムを構築するための実用的な洞察を提供します。

要約(オリジナル)

Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.

arxiv情報

著者 Pierre Le Jeune,Benoît Malézieux,Weixuan Xiao,Matteo Dora
発行日 2025-05-19 09:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY | Phare: A Safety Probe for Large Language Models はコメントを受け付けていません

Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition

要約

生成スキルの習得により、具体化されたエージェントは、大規模な意思決定モデルの進歩に不可欠な、制御スキルのスケーラブルで進化するレパートリーを積極的に学習できます。
事前のアプローチは、多くの場合、ジェネラリストのエージェント(LLMなど)からの監督信号に依存していますが、複雑な3D環境での有効性は不明のままです。
徹底的な評価には、かなりの計算コストが発生し、スキル学習の効率を大幅に妨げます。
数学的推論の検証モデルにおける最近の成功に触発され、リアルタイム検証原則を具体化されたスキル学習に体系的に統合するフレームワークであるVergsa(生成スキル習得の具体化された推論の検証)を提案します。
Vergsaは、1)数学的推論の検証から、コンテキストに関連するタスクをプロンプトに動的に組み込み、サブタスクと全体的なタスクの両方の成功メトリックを定義することにより、具体化された学習への具体化された学習へのシームレスな拡張、および2)貢献したシグネールを最終的に最終化するために、密集した報酬の兆候を確立します。
私たちの知る限り、このアプローチは、検証駆動型の生成スキル獲得のための最初の包括的なトレーニングデータセットを構成し、骨の折れる手動報酬エンジニアリングを排除します。
実験では、アプローチの有効性を検証します。1)模範タスクプールにより、平均タスクの成功率が21%改善され、2)検証モデルは、新しいタスクで24%、遭遇したタスクで36%を高め、3)検証品質におけるLLM-AS-A-Judgeベースラインを上回る。

要約(オリジナル)

Generative skill acquisition enables embodied agents to actively learn a scalable and evolving repertoire of control skills, crucial for the advancement of large decision models. While prior approaches often rely on supervision signals from generalist agents (e.g., LLMs), their effectiveness in complex 3D environments remains unclear; exhaustive evaluation incurs substantial computational costs, significantly hindering the efficiency of skill learning. Inspired by recent successes in verification models for mathematical reasoning, we propose VERGSA (Verifying Embodied Reasoning in Generative Skill Acquisition), a framework that systematically integrates real-time verification principles into embodied skill learning. VERGSA establishes 1) a seamless extension from verification of mathematical reasoning into embodied learning by dynamically incorporating contextually relevant tasks into prompts and defining success metrics for both subtasks and overall tasks, and 2) an automated, scalable reward labeling scheme that synthesizes dense reward signals by iteratively finalizing the contribution of scene configuration and subtask learning to overall skill acquisition. To the best of our knowledge, this approach constitutes the first comprehensive training dataset for verification-driven generative skill acquisition, eliminating arduous manual reward engineering. Experiments validate the efficacy of our approach: 1) the exemplar task pool improves the average task success rates by 21%, 2) our verification model boosts success rates by 24% for novel tasks and 36% for encountered tasks, and 3) outperforms LLM-as-a-Judge baselines in verification quality.

arxiv情報

著者 Bo Yue,Shuqi Guo,Kaiyu Hu,Chujiao Wang,Benyou Wang,Kui Jia,Guiliang Liu
発行日 2025-05-19 05:14:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition はコメントを受け付けていません

Geofenced Unmanned Aerial Robotic Defender for Deer Detection and Deterrence (GUARD)

要約

特に鹿による野生生物によって誘発された作物の損傷は、農業の生産性を脅かしています。
従来の抑止方法は、多様な農地環境に対するスケーラビリティ、応答性、適応性が不足していることがよくあります。
このペーパーでは、農場ロボットチャレンジの一環として開発された自律的な野生生物抑止用に設計された統合された無人航空機(UAV)システムを紹介します。
当社のシステムは、鹿を検出するためのヨロベースのリアルタイムコンピュータービジョンモジュール、効率的なフィールドモニタリングのためのエネルギー効率の高いカバレッジパス計画アルゴリズム、およびUAVの継続的な動作のための自律充電ステーションを組み合わせています。
地元のミネソタファーマーとの協力により、このシステムは、地形、インフラストラクチャの制限、動物の行動などの実用的な制約に対処するように調整されています。
このソリューションは、シミュレーションとフィールドテストの組み合わせを通じて評価され、堅牢な検出精度、効率的なカバレッジ、および拡張された運用時間を実証します。
結果は、精密農業におけるドローンベースの野生生物抑止の実現可能性と有効性を強調し、将来の展開と拡張のためのスケーラブルなフレームワークを提供します。

要約(オリジナル)

Wildlife-induced crop damage, particularly from deer, threatens agricultural productivity. Traditional deterrence methods often fall short in scalability, responsiveness, and adaptability to diverse farmland environments. This paper presents an integrated unmanned aerial vehicle (UAV) system designed for autonomous wildlife deterrence, developed as part of the Farm Robotics Challenge. Our system combines a YOLO-based real-time computer vision module for deer detection, an energy-efficient coverage path planning algorithm for efficient field monitoring, and an autonomous charging station for continuous operation of the UAV. In collaboration with a local Minnesota farmer, the system is tailored to address practical constraints such as terrain, infrastructure limitations, and animal behavior. The solution is evaluated through a combination of simulation and field testing, demonstrating robust detection accuracy, efficient coverage, and extended operational time. The results highlight the feasibility and effectiveness of drone-based wildlife deterrence in precision agriculture, offering a scalable framework for future deployment and extension.

arxiv情報

著者 Ebasa Temesgen,Mario Jerez,Greta Brown,Graham Wilson,Sree Ganesh Lalitaditya Divakarla,Sarah Boelter,Oscar Nelson,Robert McPherson,Maria Gini
発行日 2025-05-16 00:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Geofenced Unmanned Aerial Robotic Defender for Deer Detection and Deterrence (GUARD) はコメントを受け付けていません

mmMirror: Device Free mmWave Indoor NLoS Localization Using Van-Atta-Array IRS

要約

Industry 4.0は、ロボットを工場、倉庫、ヘルスケア施設などの共有人間の環境に統合することにより、製造と物流を変革しています。
ただし、特にコーナー周辺のような非難(NLOS)シナリオでの人間とロボットの衝突のリスクは、依然として重要な課題です。
VisionベースのシステムやLIDARシステムなどの既存のソリューションは、閉塞、照明の制約、またはプライバシーの懸念の下で失敗することが多く、RFベースのシステムは範囲と精度によって制限されます。
これらの制限に対処するために、Van Attaアレイベースのミリ波(mmwave)再構成可能なインテリジェントな反射面(IRS)を活用する新しいシステムであるMmmirrorを提案します。
Mmmirrorは、既存の周波数変調連続波(FMCW)レーダーとシームレスに統合し、次のオファーを提供します。(i)最大3 mの範囲でセンチメーターレベルの精度を備えた堅牢なNLOSローカリゼーション、(ii)シームレスなアップリンクとダウンリンク通信とダウンリンク通信、Radarと(III)サポートのマルチラダルおよびマルチラダーのサポート(III)
適応時間スロット割り当てによるレイテンシ。
コモディティ24 GHzレーダーとPCBベースのIRSプロトタイプを使用して実装されたMmmirrorは、動的および複雑な環境で安全な人間とロボットの相互作用を可能にする可能性を示しています。

要約(オリジナル)

Industry 4.0 is transforming manufacturing and logistics by integrating robots into shared human environments, such as factories, warehouses, and healthcare facilities. However, the risk of human-robot collisions, especially in Non-Line-of-Sight (NLoS) scenarios like around corners, remains a critical challenge. Existing solutions, such as vision-based and LiDAR systems, often fail under occlusion, lighting constraints, or privacy concerns, while RF-based systems are limited by range and accuracy. To address these limitations, we propose mmMirror, a novel system leveraging a Van Atta Array-based millimeter-wave (mmWave) reconfigurable intelligent reflecting surface (IRS) for precise, device-free NLoS localization. mmMirror integrates seamlessly with existing frequency-modulated continuous-wave (FMCW) radars and offers: (i) robust NLoS localization with centimeter-level accuracy at ranges up to 3 m, (ii) seamless uplink and downlink communication between radar and IRS, (iii) support for multi-radar and multi-target scenarios via dynamic beam steering, and (iv) reduced scanning latency through adaptive time slot allocation. Implemented using commodity 24 GHz radars and a PCB-based IRS prototype, mmMirror demonstrates its potential in enabling safe human-robot interactions in dynamic and complex environments.

arxiv情報

著者 Yihe Yan,Zhenguo Shi,Yanxiang Wang,Cheng Jiang,Chun Tung Chou,Wen Hu
発行日 2025-05-16 03:20:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.NI, cs.RO | mmMirror: Device Free mmWave Indoor NLoS Localization Using Van-Atta-Array IRS はコメントを受け付けていません