H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps

要約

高忠実度のシミュレーション環境や大量のオフラインデータを使用せずに、補強学習(RL)を使用した実際の複雑なタスクを解決することは非常に困難です。
不完全なシミュレーション環境でトレーニングされたオンラインRLエージェントは、深刻なSIMからリアルの問題に苦しむ可能性があります。
オフラインRLがアプローチしますが、シミュレーターの必要性を回避しますが、多くの場合、オフラインデータセットのサイズと品質に要件が必要です。
最近登場したハイブリッドオフラインとオンラインRLは、譲渡可能なポリシー学習のために限られたオフラインデータと不完全なシミュレーターを共同で使用できる魅力的なフレームワークを提供します。
このホワイトペーパーでは、H2O+と呼ばれる新しいアルゴリズムを開発します。これは、オフラインおよびオンライン学習方法のさまざまな選択肢を橋渡しすると同時に、実際のシミュレーション環境とシミュレーション環境の間のダイナミクスギャップを説明するための大きな柔軟性を提供します。
広範なシミュレーションと現実世界のロボット工学実験により、オンラインおよびオフラインのRLアルゴリズムよりも優れたパフォーマンスと柔軟性を示します。

要約(オリジナル)

Solving real-world complex tasks using reinforcement learning (RL) without high-fidelity simulation environments or large amounts of offline data can be quite challenging. Online RL agents trained in imperfect simulation environments can suffer from severe sim-to-real issues. Offline RL approaches although bypass the need for simulators, often pose demanding requirements on the size and quality of the offline datasets. The recently emerged hybrid offline-and-online RL provides an attractive framework that enables joint use of limited offline data and imperfect simulator for transferable policy learning. In this paper, we develop a new algorithm, called H2O+, which offers great flexibility to bridge various choices of offline and online learning methods, while also accounting for dynamics gaps between the real and simulation environment. Through extensive simulation and real-world robotics experiments, we demonstrate superior performance and flexibility over advanced cross-domain online and offline RL algorithms.

arxiv情報

著者 Haoyi Niu,Tianying Ji,Bingqi Liu,Haocheng Zhao,Xiangyu Zhu,Jianying Zheng,Pengfei Huang,Guyue Zhou,Jianming Hu,Xianyuan Zhan
発行日 2025-04-16 06:03:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | H2O+: An Improved Framework for Hybrid Offline-and-Online RL with Dynamics Gaps はコメントを受け付けていません

Multi-goal Rapidly Exploring Random Tree with Safety and Dynamic Constraints for UAV Cooperative Path Planning

要約

協同経路計画は、複雑なミッションに複数の無人航空機(UAV)を使用することに対する需要の増加により、その重要性を獲得しています。
この作業は、UAVのグループが同時に複数の目標位置に到達するためのパスを生成するために迅速に探索するランダムツリー(RRT)を拡張するMultiRRTという名前の新しいアルゴリズムを導入することにより、問題に対処します。
最初にUAVのダイナミクス制約を導き出し、問題の定式化に含めます。
その後、MultiRRTは、パス検索プロセス中の協同組合の要件と安全な制約を考慮して開発されます。
このアルゴリズムは、生成されたパスの実現可能性と最適性を確保するために、ノード削減とベジエ補間の2つの新しいメカニズムを備えています。
重要なことに、補間された経路は、障害物とUAVによって課される安全性とダイナミクスの制約を満たすことが証明されています。
提案されたアプローチのパフォーマンスを評価するために、多くのシミュレーション、比較、および実験が実施されています。
結果は、MultIRRTが複数のUAVの衝突のないパスを生成して、Theta-RRT、FN-RRT、RRT*、RRT*-SMARTなどの最先端のRRTバリアントよりも、パスの長さと滑らかさのメトリックが優れた目標を達成できることを示しています。
生成されたパスは、実際のUAVを使用した実際のフライトでもテストされ、協力タスクの妥当性を評価します。
アルゴリズムのソースコードは、https://github.com/duynamrcv/multi-target_rrtで入手できます。

要約(オリジナル)

Cooperative path planning is gaining its importance due to the increasing demand on using multiple unmanned aerial vehicles (UAVs) for complex missions. This work addresses the problem by introducing a new algorithm named MultiRRT that extends the rapidly exploring random tree (RRT) to generate paths for a group of UAVs to reach multiple goal locations at the same time. We first derive the dynamics constraint of the UAV and include it in the problem formulation. MultiRRT is then developed, taking into account the cooperative requirements and safe constraints during its path-searching process. The algorithm features two new mechanisms, node reduction and Bezier interpolation, to ensure the feasibility and optimality of the paths generated. Importantly, the interpolated paths are proven to meet the safety and dynamics constraints imposed by obstacles and the UAVs. A number of simulations, comparisons, and experiments have been conducted to evaluate the performance of the proposed approach. The results show that MultiRRT can generate collision-free paths for multiple UAVs to reach their goals with better scores in path length and smoothness metrics than state-of-the-art RRT variants including Theta-RRT, FN-RRT, RRT*, and RRT*-Smart. The generated paths are also tested in practical flights with real UAVs to evaluate their validity for cooperative tasks. The source code of the algorithm is available at https://github.com/duynamrcv/multi-target_RRT

arxiv情報

著者 Thu Hang Khuat,Duy-Nam Bui,Hoa TT. Nguyen,Mien L. Trinh,Minh T. Nguyen,Manh Duong Phung
発行日 2025-04-16 07:16:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-goal Rapidly Exploring Random Tree with Safety and Dynamic Constraints for UAV Cooperative Path Planning はコメントを受け付けていません

Towards Forceful Robotic Foundation Models: a Literature Survey

要約

この記事では、ロボット操作政策学習において、固有受容と触覚センシングの両方を含む力を統合するための現代の方法をレビューします。
センシング力、データ収集、動作クローニング、触覚表現学習、および低レベルのロボット制御のためのさまざまなアプローチに関する比較分析を実施します。
私たちの分析から、私たちはいつ、なぜ必要なのかを明確にし、非常に有能なタッチベースのロボット基礎モデルへのパスに関する接触豊富なジェネラリストロボットポリシーの学習を改善する機会を強調しています。
一般的に、注ぎ、穴の挿入、繊細なオブジェクトの処理などのタスクはほとんどありませんが、模倣学習モデルのパフォーマンスは、力が本当に重要なダイナミクスのレベルではないことがわかります。
また、力とタッチは、広範囲のモダリティを通じて推測できる抽象的な量であり、しばしば暗黙的に測定および制御されることがよくあります。
現在使用されているさまざまなアプローチを並置することで、読者が体系的な理解を得て、次世代のロボット財団モデルを刺激するのに役立つことを願っています。

要約(オリジナル)

This article reviews contemporary methods for integrating force, including both proprioception and tactile sensing, in robot manipulation policy learning. We conduct a comparative analysis on various approaches for sensing force, data collection, behavior cloning, tactile representation learning, and low-level robot control. From our analysis, we articulate when and why forces are needed, and highlight opportunities to improve learning of contact-rich, generalist robot policies on the path toward highly capable touch-based robot foundation models. We generally find that while there are few tasks such as pouring, peg-in-hole insertion, and handling delicate objects, the performance of imitation learning models is not at a level of dynamics where force truly matters. Also, force and touch are abstract quantities that can be inferred through a wide range of modalities and are often measured and controlled implicitly. We hope that juxtaposing the different approaches currently in use will help the reader to gain a systemic understanding and help inspire the next generation of robot foundation models.

arxiv情報

著者 William Xie,Nikolaus Correll
発行日 2025-04-16 07:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Towards Forceful Robotic Foundation Models: a Literature Survey はコメントを受け付けていません

SceneFactory: A Workflow-centric and Unified Framework for Incremental Scene Modeling

要約

インクリメンタルシーンモデリングのためのワークフロー中心の統合フレームワークであるSceneFactoryを提示します。これは、(ポーズなしおよび/または非協調化されていない)マルチビュー深度推定、LIDAR完成、(密な)RGB-D/RGB-L/MONO/DEPTY RECONSTRUCTION、SLAMなどの幅広いアプリケーションを便利にサポートします。
ワークフロー中心の設計では、さまざまな生産ラインを構築するための基礎として複数のブロックを使用します。
サポートされているアプリケーション、つまり、プロダクションは設計の冗長性を避けます。
したがって、独立した拡張のために、各ブロック自体に焦点が置かれます。
すべての入力の組み合わせをサポートするために、実装は、(1)追跡、(2)屈曲、(3)深度推定、および(4)シーンの再構築を形成する4つのビルディングブロックで構成されています。
追跡ブロックはモノスラムに基づいており、RGB-DおよびRGBライダー(RGB-L)入力をサポートするために拡張されています。
屈曲は、深さ画像(追跡不能)を追跡可能な画像に変換するために使用されます。
汎用の深さ推定のために、密な幾何学を推定するために、位置付けられていないマルチビュー深度推定モデル(U $^2 $ -MVD)を提案します。
u $^2 $ -MVDは、ポーズ、内因性、逆深さを解決するために、密なバンドル調整を悪用します。
次に、マルチビューの深さを完了するために、セマンティック認識Scalecovステップが導入されます。
U $^2 $ -MVDに依存すると、SceneFactoryは両方ともユーザーフレンドリーな3D作成(画像だけで)をサポートし、密なRGB-Dと密なモノのアプリケーションをブリッジします。
高品質の表面と色の再構築については、最初の表面アクセス可能な表面カラーフィールドデザインのデュアルパス多溶液ニューラルポイント(DM-NP)を提案します。ここでは、ポイントクラウドベースの表面クエリに改良点ラスター化(IPR)を導入します。

要約(オリジナル)

We present SceneFactory, a workflow-centric and unified framework for incremental scene modeling, that conveniently supports a wide range of applications, such as (unposed and/or uncalibrated) multi-view depth estimation, LiDAR completion, (dense) RGB-D/RGB-L/Mono/Depth-only reconstruction and SLAM. The workflow-centric design uses multiple blocks as the basis for constructing different production lines. The supported applications, i.e., productions avoid redundancy in their designs. Thus, the focus is placed on each block itself for independent expansion. To support all input combinations, our implementation consists of four building blocks that form SceneFactory: (1) tracking, (2) flexion, (3) depth estimation, and (4) scene reconstruction. The tracking block is based on Mono SLAM and is extended to support RGB-D and RGB-LiDAR (RGB-L) inputs. Flexion is used to convert the depth image (untrackable) into a trackable image. For general-purpose depth estimation, we propose an unposed \& uncalibrated multi-view depth estimation model (U$^2$-MVD) to estimate dense geometry. U$^2$-MVD exploits dense bundle adjustment to solve for poses, intrinsics, and inverse depth. A semantic-aware ScaleCov step is then introduced to complete the multi-view depth. Relying on U$^2$-MVD, SceneFactory both supports user-friendly 3D creation (with just images) and bridges the applications of Dense RGB-D and Dense Mono. For high-quality surface and color reconstruction, we propose Dual-purpose Multi-resolutional Neural Points (DM-NPs) for the first surface accessible Surface Color Field design, where we introduce Improved Point Rasterization (IPR) for point cloud based surface query. …

arxiv情報

著者 Yijun Yuan,Michael Bleier,Andreas Nüchter
発行日 2025-04-16 07:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SceneFactory: A Workflow-centric and Unified Framework for Incremental Scene Modeling はコメントを受け付けていません

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

要約

さまざまなジオメトリと変形可能なオブジェクトを備えたオブジェクトを操作することは、ロボット工学の大きな課題です。
異なるオブジェクトや布吊り下げの挿入などのタスクには、正確な制御と複雑なダイナミクスの効果的なモデリングが必要です。
この作業では、この問題を、アクチュエーターやオブジェクトなどの小さなサブグラフを含む不均一なグラフのレンズを通して、相互作用を説明するさまざまなエッジタイプを伴います。
このグラフ表現は、剛性と変形可能なオブジェクトの両方のタスクの統一された構造として機能し、複数のアクチュエーターを含むタスクにさらに拡張できます。
このセットアップを評価するために、多様なオブジェクトの剛性挿入、複数のエンド効果によるロープと布の操作など、斬新で挑戦的な強化学習ベンチマークを提示します。
これらのタスクは、初期構成とターゲット構成の両方が3Dスペースで均一にサンプリングされるため、大きな検索スペースを提示します。
この問題に対処するために、幾何学的対称性を活用するための主要なバックボーンとして$ se(3)$ equivariantメッセージパスネットワークを利用して、不均一等量ポリシー(HEPI)と呼ばれる新しいグラフベースのポリシーモデルを提案します。
さらに、明示的な不均一性をモデル化することにより、HEPIは、平均リターン、サンプル効率、および目に見えないオブジェクトへの一般化に関して、変圧器ベースおよび非氷河の等縁ポリシーを上回ることができます。
プロジェクトページは、https://thobotics.github.io/hepiで入手できます。

要約(オリジナル)

Manipulating objects with varying geometries and deformable objects is a major challenge in robotics. Tasks such as insertion with different objects or cloth hanging require precise control and effective modelling of complex dynamics. In this work, we frame this problem through the lens of a heterogeneous graph that comprises smaller sub-graphs, such as actuators and objects, accompanied by different edge types describing their interactions. This graph representation serves as a unified structure for both rigid and deformable objects tasks, and can be extended further to tasks comprising multiple actuators. To evaluate this setup, we present a novel and challenging reinforcement learning benchmark, including rigid insertion of diverse objects, as well as rope and cloth manipulation with multiple end-effectors. These tasks present a large search space, as both the initial and target configurations are uniformly sampled in 3D space. To address this issue, we propose a novel graph-based policy model, dubbed Heterogeneous Equivariant Policy (HEPi), utilizing $SE(3)$ equivariant message passing networks as the main backbone to exploit the geometric symmetry. In addition, by modeling explicit heterogeneity, HEPi can outperform Transformer-based and non-heterogeneous equivariant policies in terms of average returns, sample efficiency, and generalization to unseen objects. Our project page is available at https://thobotics.github.io/hepi.

arxiv情報

著者 Tai Hoang,Huy Le,Philipp Becker,Vien Anh Ngo,Gerhard Neumann
発行日 2025-04-16 07:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects はコメントを受け付けていません

Real-Time Shape Estimation of Tensegrity Structures Using Strut Inclination Angles

要約

継続的に曲げてソフトマニピュレーターやモバイルロボットなど、ロボット工学では、未知の不均一な環境を動的に探索するなど、ロボット工学で広く使用されています。
彼らの状態の基礎である形状を推定することは、制御を確立するために不可欠です。
ただし、TenseGrity構造には明確な接合部がないため、搭載されたセンサーベースの形状推定にもかかわらず、その重要性にもかかわらず困難なままでいるため、形状推定のためにポテンショメータやエンコーダーなどの従来の角度センサーを使用することが困難です。
私たちの知る限り、慣性測定ユニット(IMU)などのオンボードセンサーのみを使用して、既存の作業は形状推定を成功裏に達成していません。
この研究は、エネルギー最小化を使用して形状を推定する新しいアプローチを提案することにより、この問題に対処します。
単純なクラス1時制構造に関する実験を通じて方法を検証し、結果は、提案されたアルゴリズムが、外障害が存在する場合でも、オンボードセンサーを使用して構造のリアルタイム形状を推定できることを示しています。

要約(オリジナル)

Tensegrity structures are becoming widely used in robotics, such as continuously bending soft manipulators and mobile robots to explore unknown and uneven environments dynamically. Estimating their shape, which is the foundation of their state, is essential for establishing control. However, on-board sensor-based shape estimation remains difficult despite its importance, because tensegrity structures lack well-defined joints, which makes it challenging to use conventional angle sensors such as potentiometers or encoders for shape estimation. To our knowledge, no existing work has successfully achieved shape estimation using only onboard sensors such as Inertial Measurement Units (IMUs). This study addresses this issue by proposing a novel approach that uses energy minimization to estimate the shape. We validated our method through experiments on a simple Class 1 tensegrity structure, and the results show that the proposed algorithm can estimate the real-time shape of the structure using onboard sensors, even in the presence of external disturbances.

arxiv情報

著者 Tufail Ahmad Bhat,Yuhei Yoshimitsu,Kazuki Wada,Shuhei Ikemoto
発行日 2025-04-16 08:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Real-Time Shape Estimation of Tensegrity Structures Using Strut Inclination Angles はコメントを受け付けていません

Causality-enhanced Decision-Making for Autonomous Mobile Robots in Dynamic Environments

要約

倉庫、ショッピングセンター、病院などの共有環境でのロボットの統合の拡大は、個人がさまざまな活動や相互作用に従事する方法、いつ、どこで関与するかなど、根本的なダイナミクスと人間の行動を深く理解する必要があります。
この知識は、単純な相関研究を超えており、より包括的な因果分析が必要です。
原因推論を活用して原因と効果の関係をモデル化することにより、重要な環境要因をより適切に予測し、自律的なロボットがタスクをより効果的に計画および実行できるようにすることができます。
この目的のために、私たちは、学習した因果モデルよりもバッテリーの使用と人間の妨害を予測する理由を理由にして、これらの要因がロボットタスクの実行にどのように影響するかを理解するための新しい因果関係に基づいた意思決定フレームワークを提案します。
このような推論フレームワークは、特定のタスクをいつ、どのように完了するかを決定する際にロボットを支援します。
これを達成するために、共有ワークスペースでのコンテキストに敏感な人間ロボット空間的相互作用をモデル化するように設計された新しいガゼボベースのシミュレーターであるPeopleFlowも開発しました。
PeopleFlowは、時間、環境のレイアウト、ロボット状態などのコンテキスト要因の影響を受ける現実的な人間およびロボットの軌跡を特徴としており、多数のエージェントをシミュレートできます。
シミュレーターは汎用ですが、このホワイトペーパーでは、ケーススタディとして倉庫のような環境に焦点を当て、非因果的なベースラインに対する因果アプローチを大幅に実施しています。
私たちの調査結果は、提案されたソリューションの有効性を示しており、因果的推論により、自律的なロボットが人間と共有された動的環境でより効率的かつ安全に動作することを強調しています。

要約(オリジナル)

The growing integration of robots in shared environments — such as warehouses, shopping centres, and hospitals — demands a deep understanding of the underlying dynamics and human behaviours, including how, when, and where individuals engage in various activities and interactions. This knowledge goes beyond simple correlation studies and requires a more comprehensive causal analysis. By leveraging causal inference to model cause-and-effect relationships, we can better anticipate critical environmental factors and enable autonomous robots to plan and execute tasks more effectively. To this end, we propose a novel causality-based decision-making framework that reasons over a learned causal model to predict battery usage and human obstructions, understanding how these factors could influence robot task execution. Such reasoning framework assists the robot in deciding when and how to complete a given task. To achieve this, we developed also PeopleFlow, a new Gazebo-based simulator designed to model context-sensitive human-robot spatial interactions in shared workspaces. PeopleFlow features realistic human and robot trajectories influenced by contextual factors such as time, environment layout, and robot state, and can simulate a large number of agents. While the simulator is general-purpose, in this paper we focus on a warehouse-like environment as a case study, where we conduct an extensive evaluation benchmarking our causal approach against a non-causal baseline. Our findings demonstrate the efficacy of the proposed solutions, highlighting how causal reasoning enables autonomous robots to operate more efficiently and safely in dynamic environments shared with humans.

arxiv情報

著者 Luca Castri,Gloria Beraldo,Nicola Bellotto
発行日 2025-04-16 09:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Causality-enhanced Decision-Making for Autonomous Mobile Robots in Dynamic Environments はコメントを受け付けていません

A Graph-Based Reinforcement Learning Approach with Frontier Potential Based Reward for Safe Cluttered Environment Exploration

要約

乱雑な環境の自律的な調査には、未知のランダム障害との潜在的な衝突に対する安全性を保証する効率的な探索戦略が必要です。
このペーパーでは、グラフニューラルネットワークベースの探査貪欲なポリシーと安全シールドを組み合わせた新しいアプローチを紹介し、安全なナビゲーション目標の選択を確保します。
ネットワークは、強化学習と近位ポリシー最適化アルゴリズムを使用してトレーニングされ、安全シールドの介入を減らしながら探査効率を最大化します。
ただし、ポリシーが実行不可能なアクションを選択した場合、安全シールドが介入して最良の実行可能な代替品を選択し、システムの一貫性を確保します。
さらに、このホワイトペーパーでは、エージェントの未開の領域への近接性と、それらに到達することからの予想される情報が得られることに基づく潜在的なフィールドを含む報酬関数を提案します。
全体として、このペーパーで調査されたアプローチは、強化学習主導型探査ポリシーの適応性の利点と、明示的な安全メカニズムによって保証された保証を統合します。
シミュレートされた環境での広範な評価は、このアプローチが乱雑な環境で効率的かつ安全な探索を可能にすることを示しています。

要約(オリジナル)

Autonomous exploration of cluttered environments requires efficient exploration strategies that guarantee safety against potential collisions with unknown random obstacles. This paper presents a novel approach combining a graph neural network-based exploration greedy policy with a safety shield to ensure safe navigation goal selection. The network is trained using reinforcement learning and the proximal policy optimization algorithm to maximize exploration efficiency while reducing the safety shield interventions. However, if the policy selects an infeasible action, the safety shield intervenes to choose the best feasible alternative, ensuring system consistency. Moreover, this paper proposes a reward function that includes a potential field based on the agent’s proximity to unexplored regions and the expected information gain from reaching them. Overall, the approach investigated in this paper merges the benefits of the adaptability of reinforcement learning-driven exploration policies and the guarantee ensured by explicit safety mechanisms. Extensive evaluations in simulated environments demonstrate that the approach enables efficient and safe exploration in cluttered environments.

arxiv情報

著者 Gabriele Calzolari,Vidya Sumathy,Christoforos Kanellakis,George Nikolakopoulos
発行日 2025-04-16 09:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | A Graph-Based Reinforcement Learning Approach with Frontier Potential Based Reward for Safe Cluttered Environment Exploration はコメントを受け付けていません

Exploring Video-Based Driver Activity Recognition under Noisy Labels

要約

深い学習の分野でのオープンな研究トピックとして、騒々しいラベルを使用した学習は多くの注目を集め、過去10年間で急速に成長しました。
実世界のビデオデータには誤ったラベル付けされたサンプルが含まれており、モデルの信頼性とパフォーマンスに影響を与えることが多いため、ラベルノイズでの学習はドライバーの注意散漫行動の認識にとって重要です。
ただし、ラベルノイズ学習は、ドライバーアクティビティ認識フィールドではほとんど調査されていません。
この論文では、ドライバーアクティビティ認識タスクの最初のラベルノイズ学習アプローチを提案します。
クラスターの仮定に基づいて、最初にモデルが指定されたビデオからクラスタリングに優しい低次元表現を学習し、結果の埋め込みをクラスターに割り当てることができます。
その後、各クラスター内で共再配分を実行して、分類器の出力を滑らかにします。
さらに、トレーニングデータセットからクリーンサンプルをフィルタリングするためにハイパーパラメーターに依存することなく、2つの選択基準を組み合わせた柔軟なサンプル選択戦略を提案します。
また、クラス全体のバランスを実施するために、サンプル選択プロセスに自己適応パラメーターを組み込みます。
すべての粒度レベルのパブリックドライブおよびACTデータセットでの包括的なさまざまな実験は、画像分類フィールドから導出された他のラベルデノージング方法と比較して、私たちの方法の優れた性能を示しています。
ソースコードは、https://github.com/ilonafan/dar-noisy-labelsで入手できます。

要約(オリジナル)

As an open research topic in the field of deep learning, learning with noisy labels has attracted much attention and grown rapidly over the past ten years. Learning with label noise is crucial for driver distraction behavior recognition, as real-world video data often contains mislabeled samples, impacting model reliability and performance. However, label noise learning is barely explored in the driver activity recognition field. In this paper, we propose the first label noise learning approach for the driver activity recognition task. Based on the cluster assumption, we initially enable the model to learn clustering-friendly low-dimensional representations from given videos and assign the resultant embeddings into clusters. We subsequently perform co-refinement within each cluster to smooth the classifier outputs. Furthermore, we propose a flexible sample selection strategy that combines two selection criteria without relying on any hyperparameters to filter clean samples from the training dataset. We also incorporate a self-adaptive parameter into the sample selection process to enforce balancing across classes. A comprehensive variety of experiments on the public Drive&Act dataset for all granularity levels demonstrates the superior performance of our method in comparison with other label-denoising methods derived from the image classification field. The source code is available at https://github.com/ilonafan/DAR-noisy-labels.

arxiv情報

著者 Linjuan Fan,Di Wen,Kunyu Peng,Kailun Yang,Jiaming Zhang,Ruiping Liu,Yufan Chen,Junwei Zheng,Jiamin Wu,Xudong Han,Rainer Stiefelhagen
発行日 2025-04-16 10:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO, eess.IV | Exploring Video-Based Driver Activity Recognition under Noisy Labels はコメントを受け付けていません

Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions

要約

無人航空機(UAV)は、インフラストラクチャの検査、監視、および関連するタスクに不可欠ですが、重要なセキュリティの課題も導入しています。
この調査では、拡散ベースのデータ合成、マルチモーダル融合、ビジョン言語モデリング、自己評価学習、強化学習などの新しい方法論の詳細を詳述した3つのコア目標分類、検出、および追跡を中心に、アンチウアブドメインの幅広い調査を提供します。
シングルモダリティとマルチセンサーパイプライン(RGB、赤外線、オーディオ、レーダー、RFにまたがる)の両方で最新のソリューションを体系的に評価し、大規模および敵対的なベンチマークについて議論します。
私たちの分析により、リアルタイムのパフォーマンス、ステルス検出、群れベースのシナリオの永続的なギャップが明らかになり、堅牢で適応性のあるAnti-UAVシステムの差し迫ったニーズを強調しています。
オープンな研究の方向性を強調することにより、私たちは革新を促進し、UAVの広範な使用が特徴付けられた時代の次世代防衛戦略の開発を導くことを目指しています。

要約(オリジナル)

Unmanned Aerial Vehicles (UAVs) are indispensable for infrastructure inspection, surveillance, and related tasks, yet they also introduce critical security challenges. This survey provides a wide-ranging examination of the anti-UAV domain, centering on three core objectives-classification, detection, and tracking-while detailing emerging methodologies such as diffusion-based data synthesis, multi-modal fusion, vision-language modeling, self-supervised learning, and reinforcement learning. We systematically evaluate state-of-the-art solutions across both single-modality and multi-sensor pipelines (spanning RGB, infrared, audio, radar, and RF) and discuss large-scale as well as adversarially oriented benchmarks. Our analysis reveals persistent gaps in real-time performance, stealth detection, and swarm-based scenarios, underscoring pressing needs for robust, adaptive anti-UAV systems. By highlighting open research directions, we aim to foster innovation and guide the development of next-generation defense strategies in an era marked by the extensive use of UAVs.

arxiv情報

著者 Yifei Dong,Fengyi Wu,Sanjian Zhang,Guangyu Chen,Yuzhi Hu,Masumi Yano,Jingdong Sun,Siyu Huang,Feng Liu,Qi Dai,Zhi-Qi Cheng
発行日 2025-04-16 10:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions はコメントを受け付けていません