CamSAM2: Segment Anything Accurately in Camouflaged Videos

要約

ビデオカモフラージュオブジェクトセグメンテーション(VCO)は、環境にシームレスに融合するカモフラージュオブジェクトのセグメント化を目的としており、さまざまな現実世界のアプリケーションを備えた基本的なビジョンタスクです。
SAM2のリリースにより、ビデオセグメンテーションは大きな進歩を目撃しました。
ただし、特にポイントやボックスなどの単純なプロンプトが与えられた場合、カモフラージュビデオをセグメント化するSAM2の機能は最適ではありません。
問題に対処するために、カモフラージュSAM2(CAMSAM2)を提案します。これにより、SAM2のパラメーターを変更せずにカモフラージュシーンを処理するSAM2の能力が向上します。
具体的には、Decamouflagedトークンを導入して、VCOの機能調整の柔軟性を提供します。
現在のフレームおよび以前のフレームから細粒および高解像度の特徴を最大限に活用するために、それぞれ暗黙のオブジェクト認識融合(IOF)と明示的なオブジェクト認識融合(EOF)モジュールを提案します。
オブジェクトのプロトタイプ生成(OPG)は、以前のフレームの高品質の機能を使用して、有益な詳細を使用して、オブジェクトのプロトタイプを抽象化および記憶するために紹介されます。
私たちのアプローチの有効性を検証するために、広範な実験が行われます。
CAMSAM2はSAM2に無視できる学習可能なパラメーターのみを追加しますが、3つのVCOSデータセットでSAM2を大幅に上回ります。
コードはhttps://github.com/zhoustan/camsam2で入手できます。

要約(オリジナル)

Video camouflaged object segmentation (VCOS), aiming at segmenting camouflaged objects that seamlessly blend into their environment, is a fundamental vision task with various real-world applications. With the release of SAM2, video segmentation has witnessed significant progress. However, SAM2’s capability of segmenting camouflaged videos is suboptimal, especially when given simple prompts such as point and box. To address the problem, we propose Camouflaged SAM2 (CamSAM2), which enhances SAM2’s ability to handle camouflaged scenes without modifying SAM2’s parameters. Specifically, we introduce a decamouflaged token to provide the flexibility of feature adjustment for VCOS. To make full use of fine-grained and high-resolution features from the current frame and previous frames, we propose implicit object-aware fusion (IOF) and explicit object-aware fusion (EOF) modules, respectively. Object prototype generation (OPG) is introduced to abstract and memorize object prototypes with informative details using high-quality features from previous frames. Extensive experiments are conducted to validate the effectiveness of our approach. While CamSAM2 only adds negligible learnable parameters to SAM2, it substantially outperforms SAM2 on three VCOS datasets, especially achieving 12.2 mDice gains with click prompt on MoCA-Mask and 19.6 mDice gains with mask prompt on SUN-SEG-Hard, with Hiera-T as the backbone. The code will be available at https://github.com/zhoustan/CamSAM2.

arxiv情報

著者 Yuli Zhou,Guolei Sun,Yawei Li,Yuqian Fu,Luca Benini,Ender Konukoglu
発行日 2025-03-26 02:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CamSAM2: Segment Anything Accurately in Camouflaged Videos はコメントを受け付けていません

In the Blink of an Eye: Instant Game Map Editing using a Generative-AI Smart Brush

要約

ビデオゲームの複雑さが着実に増加するにつれて、ゲームコンテンツの自動生成が広範囲にわたる関心を見出しています。
ただし、3Dゲームマップの作成のタスクは、その独特の複雑さとドメイン固有の課題により、これまでにないままです。
最近の作品は、レトロスタイルのレベルの生成や手続き上の地形の作成などの関連するトピックに対処していますが、これらの作品は主により単純なデータ分布に焦点を当てています。
私たちの知る限り、私たちは、複雑で非常に詳細なAAA 3Dゲーム環境での高解像度のテクスチャ操作のための最新のAI技術の適用を実証する最初の人です。
マップ編集用の新しいスマートブラシを紹介します。アーティストが最小限の労力でゲームマップの選択した領域をシームレスに変更するのを支援するように設計されています。
生成的な敵対的なネットワークと拡散モデルを活用することにより、効率的でコンテキスト認識の生成を可能にするブラシの2つのバリアントを提案します。
当社のハイブリッドワークフローは、芸術的な柔軟性と生産効率の両方を高めることを目的としており、すべての細部を手動で再加工することなく環境の改良を可能にし、ゲーム開発における自動化とクリエイティブコントロールのギャップを埋めるのに役立ちます。
いくつかの最先端のモデルの適応バージョンを使用した2つの方法の比較評価は、GANベースのブラシが画像コンテキストを保持しながら、最も鋭くて最も詳細な出力を生成し、評価された最先端のモデルは輝かしい結果を維持する傾向があり、コンテキストの一貫性を維持するのが難しいことを示しています。

要約(オリジナル)

With video games steadily increasing in complexity, automated generation of game content has found widespread interest. However, the task of 3D gaming map art creation remains underexplored to date due to its unique complexity and domain-specific challenges. While recent works have addressed related topics such as retro-style level generation and procedural terrain creation, these works primarily focus on simpler data distributions. To the best of our knowledge, we are the first to demonstrate the application of modern AI techniques for high-resolution texture manipulation in complex, highly detailed AAA 3D game environments. We introduce a novel Smart Brush for map editing, designed to assist artists in seamlessly modifying selected areas of a game map with minimal effort. By leveraging generative adversarial networks and diffusion models we propose two variants of the brush that enable efficient and context-aware generation. Our hybrid workflow aims to enhance both artistic flexibility and production efficiency, enabling the refinement of environments without manually reworking every detail, thus helping to bridge the gap between automation and creative control in game development. A comparative evaluation of our two methods with adapted versions of several state-of-the art models shows that our GAN-based brush produces the sharpest and most detailed outputs while preserving image context while the evaluated state-of-the-art models tend towards blurrier results and exhibit difficulties in maintaining contextual consistency.

arxiv情報

著者 Vitaly Gnatyuk,Valeriia Koriukina,Ilya Levoshevich,Pavel Nurminskiy,Guenter Wallner
発行日 2025-03-26 06:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4 | In the Blink of an Eye: Instant Game Map Editing using a Generative-AI Smart Brush はコメントを受け付けていません

Attention IoU: Examining Biases in CelebA using Attention Maps

要約

コンピュータービジョンモデルは、幅広いデータセットとタスクにわたってバイアスを展示および増幅することが示されています。
分類モデルのバイアスを定量化するための既存の方法は、主にサブグループのデータセット分布とモデルのパフォーマンスに焦点を当て、モデルの内部ワーキングを見落としています。
注意マップを使用してモデルの内部表現内のバイアスを明らかにし、潜在的にバイアスを引き起こす画像機能を特定するために、注意マップを使用して、注意マップ(組合上の注意交差)メトリックと関連スコアを紹介します。
まず、合成水鳥データセットで注意を検証し、メトリックがモデルバイアスを正確に測定することを示します。
次に、celebaデータセットを分析して、注意が正確さの格差を超えて相関関係を明らかにしていることがわかります。
男性の保護された属性を通じて個々の属性の調査を通じて、セレバでバイアスが表現される明確な方法を調べます。
最後に、属性相関を変更するためにトレーニングセットをサブサンプリングすることにより、注意 – データセットラベルに存在しない潜在的な交絡変数が明らかになることを示します。

要約(オリジナル)

Computer vision models have been shown to exhibit and amplify biases across a wide array of datasets and tasks. Existing methods for quantifying bias in classification models primarily focus on dataset distribution and model performance on subgroups, overlooking the internal workings of a model. We introduce the Attention-IoU (Attention Intersection over Union) metric and related scores, which use attention maps to reveal biases within a model’s internal representations and identify image features potentially causing the biases. First, we validate Attention-IoU on the synthetic Waterbirds dataset, showing that the metric accurately measures model bias. We then analyze the CelebA dataset, finding that Attention-IoU uncovers correlations beyond accuracy disparities. Through an investigation of individual attributes through the protected attribute of Male, we examine the distinct ways biases are represented in CelebA. Lastly, by subsampling the training set to change attribute correlations, we demonstrate that Attention-IoU reveals potential confounding variables not present in dataset labels.

arxiv情報

著者 Aaron Serianni,Tyler Zhu,Olga Russakovsky,Vikram V. Ramaswamy
発行日 2025-03-26 02:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Attention IoU: Examining Biases in CelebA using Attention Maps はコメントを受け付けていません

AvatarArtist: Open-Domain 4D Avatarization

要約

この作品は、任意のスタイルでポートレートイメージから4Dアバターを作成する目的で、オープンドメイン4Dアバタル化に焦点を当てています。
パラメトリックトリプランは中間4D表現として選択し、生成的敵対的ネットワーク(GANS)と拡散モデルの両方を活用する実用的なトレーニングパラダイムを提案します。
私たちのデザインは、4D GANが監督なしで画像やトリプランを橋渡しすることに優れているが、通常は多様なデータ分布の処理において課題に直面しているという観察から生じています。
堅牢な2D拡散事前の事前は解決策として現れ、GANがさまざまなドメインにわたって専門知識を転送するのを支援します。
これらの専門家間の相乗効果により、一般的な4Dアバター作成者の開発を促進するマルチドメイン画像トリプレンデータセットの構築が可能になります。
広範な実験は、私たちのモデルであるAvatarartistが、さまざまなソース画像ドメインに強い堅牢性を持つ高品質の4Dアバターを生産できることを示唆しています。
コード、データ、モデルは、将来の研究を促進するために公開されます。

要約(オリジナル)

This work focuses on open-domain 4D avatarization, with the purpose of creating a 4D avatar from a portrait image in an arbitrary style. We select parametric triplanes as the intermediate 4D representation and propose a practical training paradigm that takes advantage of both generative adversarial networks (GANs) and diffusion models. Our design stems from the observation that 4D GANs excel at bridging images and triplanes without supervision yet usually face challenges in handling diverse data distributions. A robust 2D diffusion prior emerges as the solution, assisting the GAN in transferring its expertise across various domains. The synergy between these experts permits the construction of a multi-domain image-triplane dataset, which drives the development of a general 4D avatar creator. Extensive experiments suggest that our model, AvatarArtist, is capable of producing high-quality 4D avatars with strong robustness to various source image domains. The code, the data, and the models will be made publicly available to facilitate future studies.

arxiv情報

著者 Hongyu Liu,Xuan Wang,Ziyu Wan,Yue Ma,Jingye Chen,Yanbo Fan,Yujun Shen,Yibing Song,Qifeng Chen
発行日 2025-03-26 05:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AvatarArtist: Open-Domain 4D Avatarization はコメントを受け付けていません

Evolutionary Policy Optimization

要約

その極端なサンプルの非効率性にもかかわらず、ポリシー上の補強学習は、実際のアプリケーションの基本的なツールになりました。
GPU駆動型シミュレーションの最近の進歩により、RLトレーニングのために膨大な量のデータを収集する機能が指数関数的にスケーリングされました。
ただし、PPOなどの現在のポリシー方法は、並列化された環境の利点を完全に活用できず、特定のスケールを超えるパフォーマンスの飽和につながることが研究で示されています。
対照的に、進化的アルゴリズム(EAS)は、ランダム化による多様性の増加に優れており、RLを自然に補完します。
ただし、既存のEVORLメソッドは、極端なサンプルの非効率性により、広範囲にわたる採用を獲得するのに苦労しています。
これらの課題に対処するために、EAとポリシーの勾配の強みを組み合わせた新しいポリシーグラデーションアルゴリズムである進化政策最適化(EPO)を紹介します。
EPOは、多様で挑戦的な環境でパフォーマンスを大幅に向上させ、並列化されたシミュレーションで優れたスケーラビリティを実証することを示しています。

要約(オリジナル)

Despite its extreme sample inefficiency, on-policy reinforcement learning has become a fundamental tool in real-world applications. With recent advances in GPU-driven simulation, the ability to collect vast amounts of data for RL training has scaled exponentially. However, studies show that current on-policy methods, such as PPO, fail to fully leverage the benefits of parallelized environments, leading to performance saturation beyond a certain scale. In contrast, Evolutionary Algorithms (EAs) excel at increasing diversity through randomization, making them a natural complement to RL. However, existing EvoRL methods have struggled to gain widespread adoption due to their extreme sample inefficiency. To address these challenges, we introduce Evolutionary Policy Optimization (EPO), a novel policy gradient algorithm that combines the strengths of EA and policy gradients. We show that EPO significantly improves performance across diverse and challenging environments, demonstrating superior scalability with parallelized simulations.

arxiv情報

著者 Jianren Wang,Yifan Su,Abhinav Gupta,Deepak Pathak
発行日 2025-03-24 18:08:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Evolutionary Policy Optimization はコメントを受け付けていません

Morphological Symmetries in Robotics

要約

ロボットシステムの形態学的対称性を研究し、活用するための包括的なフレームワークを提示します。
これらは、動物の生物学とロボット工学で頻繁に観察されるロボットの形態の固有の特性であり、運動学的構造の複製と質量の対称分布に起因します。
これらの対称性がロボットの状態空間と固有受容性および外部受容センサー測定の両方にどのように拡張され、ロボットの運動方程式と最適な制御ポリシーが等しくなるかを示します。
したがって、形態学的対称性は、ロボット工学のモデリング、制御、推定、および設計で使用されるデータ駆動型および分析方法の両方に大きな意味を持つ、関連性が高く、以前に未開の物理学に基づいた幾何学的な事前であると認識しています。
データ駆動型の方法では、形態学的対称性が、データ増強を通じて、またはモデルのアーキテクチャに等変量/不変の制約を適用することにより、機械学習モデルのサンプル効率と一般化を強化できることを実証します。
分析方法のコンテキストでは、抽象的な高調波解析を採用して、ロボットのダイナミクスを低次元の独立したダイナミクスの重ね合わせに分解します。
私たちは、Bipedal and Quadrupedalロボットで実施された合成と現実世界の両方の実験で主張を実証します。
最後に、この作業で概説されている理論とアプリケーションの実際の使用を促進するために、リポジトリのモルホシームを紹介します。

要約(オリジナル)

We present a comprehensive framework for studying and leveraging morphological symmetries in robotic systems. These are intrinsic properties of the robot’s morphology, frequently observed in animal biology and robotics, which stem from the replication of kinematic structures and the symmetrical distribution of mass. We illustrate how these symmetries extend to the robot’s state space and both proprioceptive and exteroceptive sensor measurements, resulting in the equivariance of the robot’s equations of motion and optimal control policies. Thus, we recognize morphological symmetries as a relevant and previously unexplored physics-informed geometric prior, with significant implications for both data-driven and analytical methods used in modeling, control, estimation and design in robotics. For data-driven methods, we demonstrate that morphological symmetries can enhance the sample efficiency and generalization of machine learning models through data augmentation, or by applying equivariant/invariant constraints on the model’s architecture. In the context of analytical methods, we employ abstract harmonic analysis to decompose the robot’s dynamics into a superposition of lower-dimensional, independent dynamics. We substantiate our claims with both synthetic and real-world experiments conducted on bipedal and quadrupedal robots. Lastly, we introduce the repository MorphoSymm to facilitate the practical use of the theory and applications outlined in this work.

arxiv情報

著者 Daniel Ordoñez-Apraez,Giulio Turrisi,Vladimir Kostic,Mario Martin,Antonio Agudo,Francesc Moreno-Noguer,Massimiliano Pontil,Claudio Semini,Carlos Mastalli
発行日 2025-03-24 18:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO, cs.SY, eess.SY, I.2.9 | Morphological Symmetries in Robotics はコメントを受け付けていません

A Rapid Trajectory Optimization and Control Framework for Resource-Constrained Applications

要約

このペーパーでは、自律剤の迅速な動作を可能にするために積分チェビシェフコロケーション法を使用する計算効率的なモデル予測制御定式化を提示します。
有限硬膜の最適制御問題と最適な軌跡の再帰的再評価を提起することにより、状態のL2規範と制御エラーの最小化が二次プログラムに転写されます。
制御および状態変数の制約は、Chebyshev多項式を使用してパラメーター化され、アクチュエータの制限と維持制約を組み込むための最適な軌跡生成プログラムに対応します。
ポリトープの微分可能な衝突検出は、最適な衝突回避のために活用されています。
コロケーション方法から得られた結果は、パフォーマンスの改善の概要を説明するために、エッジコンピューターの既存のアプローチに対してベンチマークされています。
最後に、マルチエージェントスペースシステムを含む共同制御シナリオは、提案された作業の技術的メリットを実証するために考えられています。

要約(オリジナル)

This paper presents a computationally efficient model predictive control formulation that uses an integral Chebyshev collocation method to enable rapid operations of autonomous agents. By posing the finite-horizon optimal control problem and recursive re-evaluation of the optimal trajectories, minimization of the L2 norms of the state and control errors are transcribed into a quadratic program. Control and state variable constraints are parameterized using Chebyshev polynomials and are accommodated in the optimal trajectory generation programs to incorporate the actuator limits and keep-out constraints. Differentiable collision detection of polytopes is leveraged for optimal collision avoidance. Results obtained from the collocation methods are benchmarked against the existing approaches on an edge computer to outline the performance improvements. Finally, collaborative control scenarios involving multi-agent space systems are considered to demonstrate the technical merits of the proposed work.

arxiv情報

著者 Deep Parikh,Thomas L. Ahrens,Manoranjan Majji
発行日 2025-03-24 20:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Rapid Trajectory Optimization and Control Framework for Resource-Constrained Applications はコメントを受け付けていません

CAHSOR: Competence-Aware High-Speed Off-Road Ground Navigation in SE(3)

要約

従来の地上車両のワークスペースは通常、2D飛行機、つまりSE(2)にあると想定されていますが、そのような仮定は、非構造化されたオフロード地形で高速で走行するときには保持されない場合があります。
ゆるい砂利や草を積極的に回すと、非ホロノミーの制約に違反し、重大な横方向の滑りが生じる可能性があります。
頑丈な地形で迅速に運転すると、垂直軸に沿って広範な振動が生じます。
したがって、ほとんどのオフロード車両は現在、車両の安定性と安全性を保証するために低速でのみ運転するように制限されています。
この作業では、SE(3)の能力意識を持つ高速オフロード車両に力を与えることを目指しています。そのため、6ドーフの前方運動力学モデルで異なる地形で攻撃的な操作を行うことの結果について推論できます。
このモデルは、マルチモーダルで自己補助された車両とテレインの相互作用を使用して、オフロードナビゲーション(Tron)の視覚的および慣性地形表現から学習されます。
私たちは、自律的なナビゲーションと人間の共有制御セットアップの両方で、物理的な地上ロボットでの能力を意識した高速オフロード(CAHSOR)ナビゲーションアプローチの有効性を示し、CAHSORがトロンの助けを借りて8.6%の平均速度のみを62%低下させることができることを示しています。

要約(オリジナル)

While the workspace of traditional ground vehicles is usually assumed to be in a 2D plane, i.e., SE(2), such an assumption may not hold when they drive at high speeds on unstructured off-road terrain: High-speed sharp turns on high-friction surfaces may lead to vehicle rollover; Turning aggressively on loose gravel or grass may violate the non-holonomic constraint and cause significant lateral sliding; Driving quickly on rugged terrain will produce extensive vibration along the vertical axis. Therefore, most offroad vehicles are currently limited to drive only at low speeds to assure vehicle stability and safety. In this work, we aim at empowering high-speed off-road vehicles with competence awareness in SE(3) so that they can reason about the consequences of taking aggressive maneuvers on different terrain with a 6-DoF forward kinodynamic model. The model is learned from visual and inertial Terrain Representation for Off-road Navigation (TRON) using multimodal, self-supervised vehicle-terrain interactions. We demonstrate the efficacy of our Competence-Aware High-Speed Off-Road (CAHSOR) navigation approach on a physical ground robot in both an autonomous navigation and a human shared-control setup and show that CAHSOR can efficiently reduce vehicle instability by 62% while only compromising 8.6% average speed with the help of TRON.

arxiv情報

著者 Anuj Pokhrel,Aniket Datar,Mohammad Nazeri,Xuesu Xiao
発行日 2025-03-24 20:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CAHSOR: Competence-Aware High-Speed Off-Road Ground Navigation in SE(3) はコメントを受け付けていません

Cooperative Control of Multi-Quadrotors for Transporting Cable-Suspended Payloads: Obstacle-Aware Planning and Event-Based Nonlinear Model Predictive Control

要約

このペーパーでは、障害物を認識した計画とイベントベースの非線形モデル予測制御(NMPC)を強調し、ケーブル懸濁ペイロードを輸送する複数の四つ孔の協同制御のための新しい方法論を紹介します。
当社のアプローチは、グローバルパス計画のA*アルゴリズムとローカルコントロールのNMPCの組み合わせを介して、軌道計画をリアルタイム制御と統合し、軌跡の適応性と障害物回避を強化します。
動的に生成された環境マップを介して特定されたイベントに基づいて更新する高度なイベントトリガー制御システムを提案します。
これらのマップは、静的な障害物検出のためのマルチカメラシステムと、高解像度、動的障害物の低遅延検出用のイベントカメラを含むデュアルカメラセットアップを使用して構築されています。
この設計は、特に急速な動きや可変照明条件を備えた環境で、従来のカメラが見落とす可能性のある急速に移動し、一時的な障害に対処するために重要です。
新しい障害物が検出されると、A*アルゴリズムは更新されたマップに基づいてウェイポイントを再計算し、安全で効率的なナビゲーションを確保します。
このリアルタイムの障害物の検出とマップの更新統合により、システムは環境の変化に適応的に対応し、安全性とナビゲーション効率を著しく改善できます。
このシステムは、正確なローカリゼーションと包括的な環境マッピングのために、マルチカメラ、イベントカメラ、およびIMUのデータを利用したスラムおよびオブジェクト検出技術を採用しています。
NMPCフレームワークは、複数の四角形と吊り下げられたペイロードの複雑なダイナミクスを巧みに管理し、安全性と安定性を維持するための安全上の制約を組み込みます。
広範なシミュレーションは、提案されたアプローチを検証し、エネルギー効率、計算リソース管理、および応答性の大幅な強化を実証します。

要約(オリジナル)

This paper introduces a novel methodology for the cooperative control of multiple quadrotors transporting cablesuspended payloads, emphasizing obstacle-aware planning and event-based Nonlinear Model Predictive Control (NMPC). Our approach integrates trajectory planning with real-time control through a combination of the A* algorithm for global path planning and NMPC for local control, enhancing trajectory adaptability and obstacle avoidance. We propose an advanced event-triggered control system that updates based on events identified through dynamically generated environmental maps. These maps are constructed using a dual-camera setup, which includes multi-camera systems for static obstacle detection and event cameras for high-resolution, low-latency detection of dynamic obstacles. This design is crucial for addressing fast-moving and transient obstacles that conventional cameras may overlook, particularly in environments with rapid motion and variable lighting conditions. When new obstacles are detected, the A* algorithm recalculates waypoints based on the updated map, ensuring safe and efficient navigation. This real-time obstacle detection and map updating integration allows the system to adaptively respond to environmental changes, markedly improving safety and navigation efficiency. The system employs SLAM and object detection techniques utilizing data from multi-cameras, event cameras, and IMUs for accurate localization and comprehensive environmental mapping. The NMPC framework adeptly manages the complex dynamics of multiple quadrotors and suspended payloads, incorporating safety constraints to maintain dynamic feasibility and stability. Extensive simulations validate the proposed approach, demonstrating significant enhancements in energy efficiency, computational resource management, and responsiveness.

arxiv情報

著者 Tohid Kargar Tasooji,Sakineh Khodadadi,Guangjun Liu,Richard Wang
発行日 2025-03-24 20:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO | Cooperative Control of Multi-Quadrotors for Transporting Cable-Suspended Payloads: Obstacle-Aware Planning and Event-Based Nonlinear Model Predictive Control はコメントを受け付けていません

Dom, cars don’t fly! — Or do they? In-Air Vehicle Maneuver for High-Speed Off-Road Navigation

要約

不均一な地形での攻撃的なオフロードナビゲーションの速度制限を押し上げると、車両が時々空中になることは避けられません。
時間に敏感なタスクの間、挑戦的な地形の上を飛ぶことができることは、慎重に回避したりゆっくりと交渉したりするのではなく、時間を節約できます。
ただし、ほとんどのオフロードの自律システムは、車両が常に地上にあるため、運用速度を制限するという仮定の下で動作します。
この論文では、高速オフロードナビゲーション中の空中車両操作のための新しいアプローチを紹介します。
物理学の原理と機械学習の両方を使用したハイブリッドフォワードの運動力学モデルに基づいて、固定硬化様式のサンプリングベースのモーションプランナーは、車両のスロットルとステアリングコマンドを使用して短い空中時枠内で正確な車両着陸ポーズとその導関数を保証します。
屋内と屋外の両方の空気内実験でアプローチをテストし、エラー駆動型制御方法と比較し、既存の地上車両コントロールを通じて正確でタイムリーな空中車両操作が可能であることを示します。

要約(オリジナル)

When pushing the speed limit for aggressive off-road navigation on uneven terrain, it is inevitable that vehicles may become airborne from time to time. During time-sensitive tasks, being able to fly over challenging terrain can also save time, instead of cautiously circumventing or slowly negotiating through. However, most off-road autonomy systems operate under the assumption that the vehicles are always on the ground and therefore limit operational speed. In this paper, we present a novel approach for in-air vehicle maneuver during high-speed off-road navigation. Based on a hybrid forward kinodynamic model using both physics principles and machine learning, our fixed-horizon, sampling-based motion planner ensures accurate vehicle landing poses and their derivatives within a short airborne time window using vehicle throttle and steering commands. We test our approach in extensive in-air experiments both indoors and outdoors, compare it against an error-driven control method, and demonstrate that precise and timely in-air vehicle maneuver is possible through existing ground vehicle controls.

arxiv情報

著者 Anuj Pokhrel,Aniket Datar,Xuesu Xiao
発行日 2025-03-24 20:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Dom, cars don’t fly! — Or do they? In-Air Vehicle Maneuver for High-Speed Off-Road Navigation はコメントを受け付けていません