Defining and Quantifying Creative Behavior in Popular Image Generators

要約

生成AIモデルの創造性は、決定的な答えなしに、過去数年間で科学的議論の対象となっています。
この論文では、実用的な観点から創造性を研究し、ユーザーが特定のタスクに適したAIモデルを選択するのに役立つ定量的対策を導入します。
多くの一般的な画像から画像間生成モデルに関する測定値を評価しましたが、この結果は、私たちの措置が人間の直観に適合することを示唆しています。

要約(オリジナル)

Creativity of generative AI models has been a subject of scientific debate in the last years, without a conclusive answer. In this paper, we study creativity from a practical perspective and introduce quantitative measures that help the user to choose a suitable AI model for a given task. We evaluated our measures on a number of popular image-to-image generation models, and the results of this suggest that our measures conform to human intuition.

arxiv情報

著者 Aditi Ramaswamy,Hana Chockler,Melane Navaratnarajah
発行日 2025-05-08 11:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.m | Defining and Quantifying Creative Behavior in Popular Image Generators はコメントを受け付けていません

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

要約

カスタマイズされたビデオジェネレーションは、柔軟なユーザー定義条件下で特定の主題を特徴とするビデオを作成することを目的としていますが、既存の方法は、アイデンティティの一貫性と限られた入力モダリティに苦労することがよくあります。
このペーパーでは、画像、オーディオ、ビデオ、テキストの条件をサポートしながら主題の一貫性を強調するマルチモーダルカスタマイズされたビデオ生成フレームワークであるHunyuancustomを提案します。
Hunyuanvideoに基づいて構築されたこのモデルは、最初に画像テキスト条件付き生成タスクに対処し、LLAVAに基づいてマルチモーダル理解を強化するためのテキストイメージ融合モジュールを導入し、画像ID強化モジュールをレバレッジしてフレーム全体のアイデンティティ機能を強化する画像ID強化モジュールを導入します。
オーディオおよびビデオコンディショナルの生成を有効にするために、モダリティ固有の条件インジェクションメカニズムをさらに提案します。空間交差に関する階層的アライメントを達成するオーディオンモジュール、およびパッチ化ベースの特徴的整合ネットワークを介して潜在的な圧縮条件ビデオを統合するビデオ駆動型注入モジュールを提案します。
単一およびマルチサブジェクトのシナリオに関する広範な実験は、HunyuancustomがIDの一貫性、リアリズム、およびテキストビデオアラインメントの観点から、最先端のオープンソースメソッドを大幅に上回ることを示しています。
さらに、オーディオやビデオ駆動型のカスタマイズされたビデオ生成など、下流のタスク全体でその堅牢性を検証します。
私たちの結果は、制御可能なビデオ生成を進める際のマルチモーダルコンディショニングとアイデンティティを提供する戦略の有効性を強調しています。
すべてのコードとモデルは、https://hunyuancustom.github.ioで入手できます。

要約(オリジナル)

Customized video generation aims to produce videos featuring specific subjects under flexible user-defined conditions, yet existing methods often struggle with identity consistency and limited input modalities. In this paper, we propose HunyuanCustom, a multi-modal customized video generation framework that emphasizes subject consistency while supporting image, audio, video, and text conditions. Built upon HunyuanVideo, our model first addresses the image-text conditioned generation task by introducing a text-image fusion module based on LLaVA for enhanced multi-modal understanding, along with an image ID enhancement module that leverages temporal concatenation to reinforce identity features across frames. To enable audio- and video-conditioned generation, we further propose modality-specific condition injection mechanisms: an AudioNet module that achieves hierarchical alignment via spatial cross-attention, and a video-driven injection module that integrates latent-compressed conditional video through a patchify-based feature-alignment network. Extensive experiments on single- and multi-subject scenarios demonstrate that HunyuanCustom significantly outperforms state-of-the-art open- and closed-source methods in terms of ID consistency, realism, and text-video alignment. Moreover, we validate its robustness across downstream tasks, including audio and video-driven customized video generation. Our results highlight the effectiveness of multi-modal conditioning and identity-preserving strategies in advancing controllable video generation. All the code and models are available at https://hunyuancustom.github.io.

arxiv情報

著者 Teng Hu,Zhentao Yu,Zhengguang Zhou,Sen Liang,Yuan Zhou,Qin Lin,Qinglin Lu
発行日 2025-05-08 08:29:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation はコメントを受け付けていません

TetWeave: Isosurface Extraction using On-The-Fly Delaunay Tetrahedral Grids for Gradient-Based Mesh Optimization

要約

Tetweaveを紹介します。Tetweaveは、四面体の行進に使用される四面体グリッドの配置と各ポイントでの新しい方向標識距離を共同で最適化する勾配ベースのメッシュ最適化のための新しい等面表現です。
Tetweaveは、Delaunayの三角測量を介してフライで四面体グリッドを構築し、事前に定義されたグリッドと比較して柔軟性を高めることができます。
抽出されたメッシュは、水密、2マニホールド、交差点がないことが保証されています。
TetWeaveの柔軟性により、再構成エラーが高い新しいポイントを配置し、再構成エラーを損なうことなくメッシュの公平性を促進できる新しいポイントを配置する再サンプリング戦略が可能になります。
これにより、メモリの使用量が最小限に抑えられ、最適化するパラメーターが少ない高品質の適応メッシュにつながります。
その結果、TetWeaveは、出力メッシュの頂点数に比べてほぼ線形メモリスケーリングを示します。これは、事前に定義されたグリッドよりも大幅に改善されています。
マルチビュー3D再構成、メッシュ圧縮、幾何学的テクスチャ生成など、コンピューターグラフィックスとビジョンにおける幅広い挑戦的なタスクへのTetWeaveの適用性を実証します。

要約(オリジナル)

We introduce TetWeave, a novel isosurface representation for gradient-based mesh optimization that jointly optimizes the placement of a tetrahedral grid used for Marching Tetrahedra and a novel directional signed distance at each point. TetWeave constructs tetrahedral grids on-the-fly via Delaunay triangulation, enabling increased flexibility compared to predefined grids. The extracted meshes are guaranteed to be watertight, two-manifold and intersection-free. The flexibility of TetWeave enables a resampling strategy that places new points where reconstruction error is high and allows to encourage mesh fairness without compromising on reconstruction error. This leads to high-quality, adaptive meshes that require minimal memory usage and few parameters to optimize. Consequently, TetWeave exhibits near-linear memory scaling relative to the vertex count of the output mesh – a substantial improvement over predefined grids. We demonstrate the applicability of TetWeave to a broad range of challenging tasks in computer graphics and vision, such as multi-view 3D reconstruction, mesh compression and geometric texture generation.

arxiv情報

著者 Alexandre Binninger,Ruben Wiersma,Philipp Herholz,Olga Sorkine-Hornung
発行日 2025-05-08 08:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.3.5 | TetWeave: Isosurface Extraction using On-The-Fly Delaunay Tetrahedral Grids for Gradient-Based Mesh Optimization はコメントを受け付けていません

FA-KPConv: Introducing Euclidean Symmetries to KPConv via Frame Averaging

要約

3Dポイントクラウド分析のために広く採用されているバックボーンである、よく知られているKPCONVの上に構築されたニューラルネットワークアーキテクチャであるカーネルポイント畳み込み(FA-KPCONV)のフレーム平均化を提示します。
多くの一般的なタスクでは、ユークリッドの変換への不変性および/または等掘りが必要ですが、KPCONVベースのネットワークは、大規模なデータセットでトレーニングまたは重要なデータ増強を行うときにのみ、そのようなプロパティをほぼ達成できます。
フレーム平均化を使用して、KPCONVレイヤーで構築されたポイントクラウドニューラルネットワークを柔軟にカスタマイズできます。それらは、入力ポイントクラウドの翻訳、回転、および/または反射に正確に不変および/または同等にすることにより、それらを柔軟にカスタマイズできます。
FA-KPCONVは、既存のKPCONVベースのネットワークを単純に包むだけで、学習可能なパラメーターの数を維持し、入力情報を侵害しないように、幾何学的な事前知識を埋め込みます。
特に希少なトレーニングデータやランダムに回転したテストデータなどの困難なケースで、ポイントクラウド分類とポイントクラウド登録のためにこのような導入されたバイアスの利点を紹介します。

要約(オリジナル)

We present Frame-Averaging Kernel-Point Convolution (FA-KPConv), a neural network architecture built on top of the well-known KPConv, a widely adopted backbone for 3D point cloud analysis. Even though invariance and/or equivariance to Euclidean transformations are required for many common tasks, KPConv-based networks can only approximately achieve such properties when training on large datasets or with significant data augmentations. Using Frame Averaging, we allow to flexibly customize point cloud neural networks built with KPConv layers, by making them exactly invariant and/or equivariant to translations, rotations and/or reflections of the input point clouds. By simply wrapping around an existing KPConv-based network, FA-KPConv embeds geometrical prior knowledge into it while preserving the number of learnable parameters and not compromising any input information. We showcase the benefit of such an introduced bias for point cloud classification and point cloud registration, especially in challenging cases such as scarce training data or randomly rotated test data.

arxiv情報

著者 Ali Alawieh,Alexandru P. Condurache
発行日 2025-05-08 06:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FA-KPConv: Introducing Euclidean Symmetries to KPConv via Frame Averaging はコメントを受け付けていません

MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection

要約

3D属性を正確に予測することは、単眼3Dオブジェクト検出(Mono3D)にとって重要であり、2D画像を3Dスペースにマッピングすることに固有のあいまいさのために深さ推定が最大の課題となります。
既存の方法は、深さの精度を向上させるために複数の深度キュー(深さの不確実性、モデリングの深さエラーの推定、モデリングの推定など)を活用していますが、これらの属性は3Dから2Dプロジェクションを通じて本質的に相互に相関するため、他の3D属性の条件付けが必要であり、最終的には全体的な精度と安定性を制限しているため
大規模な言語モデル(LLMS)のチェーンオブ思考(COT)に触発されたこのペーパーでは、3つの重要なデザインを介して属性を順次および条件付きで予測する予測チェーン(COP)を活用するMonocopを提案します。
まず、各3D属性に対して軽量の属性(AN)を使用して、属性固有の機能を学習します。
次に、Monocopは、これらの学習された機能を次の属性から次の属性に伝播するための明示的なチェーンを構築します。
最後に、Monocopは、チェーンに沿った各属性の集約機能への残留接続を使用して、以前の属性の機能を忘れずに、以前に処理されたすべての属性に対して後の属性予測が条件付けられるようにします。
実験結果は、モノコップが追加のデータを必要とせずにキッティリーダーボードで最先端の(SOTA)パフォーマンスを達成し、WAYMOおよびNuscenesの前頭データセットの既存の方法をさらに上回ることを示しています。

要約(オリジナル)

Accurately predicting 3D attributes is crucial for monocular 3D object detection (Mono3D), with depth estimation posing the greatest challenge due to the inherent ambiguity in mapping 2D images to 3D space. While existing methods leverage multiple depth cues (e.g., estimating depth uncertainty, modeling depth error) to improve depth accuracy, they overlook that accurate depth prediction requires conditioning on other 3D attributes, as these attributes are intrinsically inter-correlated through the 3D to 2D projection, which ultimately limits overall accuracy and stability. Inspired by Chain-of-Thought (CoT) in large language models (LLMs), this paper proposes MonoCoP, which leverages a Chain-of-Prediction (CoP) to predict attributes sequentially and conditionally via three key designs. First, it employs a lightweight AttributeNet (AN) for each 3D attribute to learn attribute-specific features. Next, MonoCoP constructs an explicit chain to propagate these learned features from one attribute to the next. Finally, MonoCoP uses a residual connection to aggregate features for each attribute along the chain, ensuring that later attribute predictions are conditioned on all previously processed attributes without forgetting the features of earlier ones. Experimental results show that our MonoCoP achieves state-of-the-art (SoTA) performance on the KITTI leaderboard without requiring additional data and further surpasses existing methods on the Waymo and nuScenes frontal datasets.

arxiv情報

著者 Zhihao Zhang,Abhinav Kumar,Girish Chandar Ganesan,Xiaoming Liu
発行日 2025-05-08 06:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MonoCoP: Chain-of-Prediction for Monocular 3D Object Detection はコメントを受け付けていません

OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

要約

デュアルシステムVLA(Vision-Language-action)アーキテクチャは、具体化されたインテリジェンス研究のホットトピックとなっていますが、さらなるパフォーマンス分析と最適化に十分なオープンソース作業が不足しています。
この問題に対処するために、このペーパーでは、既存のデュアルシステムアーキテクチャの構造設計を要約および比較し、既存のデュアルシステムアーキテクチャのコア設計要素に関する体系的な経験的評価を実施します。
最終的には、さらなる調査のための低コストのオープンソースモデルを提供します。
もちろん、このプロジェクトは、より実験的な結論とオープンソースモデルで引き続き更新され、誰もが選択できるパフォーマンスが向上します。
プロジェクトページ:https://openhelix-robot.github.io/。

要約(オリジナル)

Dual-system VLA (Vision-Language-Action) architectures have become a hot topic in embodied intelligence research, but there is a lack of sufficient open-source work for further performance analysis and optimization. To address this problem, this paper will summarize and compare the structural designs of existing dual-system architectures, and conduct systematic empirical evaluations on the core design elements of existing dual-system architectures. Ultimately, it will provide a low-cost open-source model for further exploration. Of course, this project will continue to update with more experimental conclusions and open-source models with improved performance for everyone to choose from. Project page: https://openhelix-robot.github.io/.

arxiv情報

著者 Can Cui,Pengxiang Ding,Wenxuan Song,Shuanghao Bai,Xinyang Tong,Zirui Ge,Runze Suo,Wanqi Zhou,Yang Liu,Bofang Jia,Han Zhao,Siteng Huang,Donglin Wang
発行日 2025-05-06 18:35:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation はコメントを受け付けていません

Improving Failure Prediction in Aircraft Fastener Assembly Using Synthetic Data in Imbalanced Datasets

要約

航空機の製造の自動化は、アセンブリプロセスとカスタマイズ要件の複雑さのために、依然として人間の労働に大きく依存しています。
重要な課題の1つは、特にエラーがかなりのメンテナンスコストまたは一部の拒否につながる可能性のある大規模な航空機構造の場合、正確なポジショニングを達成することです。
既存のソリューションには、費用のかかるハードウェアや柔軟性が不足していることがよくあります。
航空機で数千個のスレッドファスナー、たとえばネジ、ボルト、カラーが使用することは、伝統的に固定塩基ロボットによって実行され、通常、言及された製造サイトに展開されるのに問題があります。
この論文では、エラー検出の重要性と、特に航空機の襟の効率的かつ安全なアセンブリのための分類を強調しています。
スレッドファスナーの安全なアセンブリは、障害ケースの希少性と不均衡なデータセットのために、深い学習モデルのトレーニングに十分なデータを取得するため、最重要です。
この論文は、クラスの重み付けやデータ増強などの手法を提案することにより、特に一時的なシリーズデータに合わせて調整され、分類パフォーマンスを向上させることにより、これに対処します。
さらに、このペーパーでは、正確さのみに焦点を当てるのではなく、カラーアセンブリに関連するメトリックを強調した、新しい問題モデリングアプローチを紹介します。
このカスタマイズされたアプローチは、スレッドされたファスナーアセンブリの課題を効果的に処理するモデルの機能を強化します。

要約(オリジナル)

Automating aircraft manufacturing still relies heavily on human labor due to the complexity of the assembly processes and customization requirements. One key challenge is achieving precise positioning, especially for large aircraft structures, where errors can lead to substantial maintenance costs or part rejection. Existing solutions often require costly hardware or lack flexibility. Used in aircraft by the thousands, threaded fasteners, e.g., screws, bolts, and collars, are traditionally executed by fixed-base robots and usually have problems in being deployed in the mentioned manufacturing sites. This paper emphasizes the importance of error detection and classification for efficient and safe assembly of threaded fasteners, especially aeronautical collars. Safe assembly of threaded fasteners is paramount since acquiring sufficient data for training deep learning models poses challenges due to the rarity of failure cases and imbalanced datasets. The paper addresses this by proposing techniques like class weighting and data augmentation, specifically tailored for temporal series data, to improve classification performance. Furthermore, the paper introduces a novel problem-modeling approach, emphasizing metrics relevant to collar assembly rather than solely focusing on accuracy. This tailored approach enhances the models’ capability to handle the challenges of threaded fastener assembly effectively.

arxiv情報

著者 Gustavo J. G. Lahr,Ricardo V. Godoy,Thiago H. Segreto,Jose O. Savazzi,Arash Ajoudani,Thiago Boaventura,Glauco A. P. Caurin
発行日 2025-05-06 18:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Improving Failure Prediction in Aircraft Fastener Assembly Using Synthetic Data in Imbalanced Datasets はコメントを受け付けていません

Omnidirectional vision sensors based on catadioptric systems with discrete infrared photoreceptors for swarm robotics

要約

この作業では、モバイルロボットアージェントの局所化と航海能力を提供するために、回転対称性のミラー、8つの個別の赤外線フォトダイオード、および単一のLEDで構成されるカタジオプリックシステムに基づいて、群れロボット工学の全方向性視力センサーの2つの設計を製造および研究しました。
フォトダイオードの2つの配置を検討しました。1つは鏡を上に向け、もう1つは鏡に垂直に向かって外側に向けるものです。
どの設計が平面上のより良い視野を提供するか、および2つのエージェント間の距離と方向の検出を提供するために、3つの自由度を持つテストレールを開発し、実験的かつ体系的に距離と方向の機能として別のセンサー(単一の読み取り)から登録された(単一の読み取り)のフォトジオードによって登録された信号を体系的に測定しました。
その後、実験データを処理および分析して、各設計におけるフォトダイオードの平均応答の数学モデルを開発しました。
最後に、モデルを数値的に反転させることにより、2つのデザインを精度の点で比較しました。
私たちの結果は、上向きのフォトダイオードを使用した設計が距離をより良く解決し、もう1つは放射剤の方向をより良く解決し、どちらも全方向性の視野を提供することを示しています。

要約(オリジナル)

In this work, we fabricated and studied two designs for omnidirectional vision sensors for swarm robotics, based on catadioptric systems consisting of a mirror with rotational symmetry, eight discrete infrared photodiodes and a single LED, in order to provide localization and navigation abilities for mobile robotic agents. We considered two arrangements for the photodiodes: one in which they point upward into the mirror, and one in which they point outward, perpendicular to the mirror. To determine which design offers a better field of view on the plane, as well as detection of distance and orientation between two agents, we developed a test rail with three degrees of freedom to experimentally and systematically measure the signal registered by the photodiodes of a given sensor (in a single readout) from the light emitted by another as functions of the distance and orientation. Afterwards, we processed and analyzed the experimental data to develop mathematical models for the mean response of a photodiode in each design. Finally, by numerically inverting the models, we compared the two designs in terms of their accuracy. Our results show that the design with the photodiodes pointing upward resolves better the distance, while the other resolves better the orientation of the emitting agent, both providing an omnidirectional field of view.

arxiv情報

著者 Jose Fernando Contreras-Monsalvo,Victor Dossetti,Blanca Susana Soto-Cruz
発行日 2025-05-06 18:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.RO, physics.ins-det | Omnidirectional vision sensors based on catadioptric systems with discrete infrared photoreceptors for swarm robotics はコメントを受け付けていません

MIHRaGe: A Mixed-Reality Interface for Human-Robot Interaction via Gaze-Oriented Control

要約

上肢の移動性障害のある人は、日常生活の活動を行うために支援技術を必要とすることがよくあります。
視線追跡はロボット支援の有望な方法として浮上していますが、既存のソリューションには十分なフィードバックメカニズムがなく、ユーザーの意図の認識の不確実性と適応性の低下につながります。
このペーパーでは、視線追跡、ロボット支援、および混合現実性を組み合わせた統合されたシステムであるMihrageインターフェイスを紹介し、目の動きを使用してロボットを制御するための没入型環境を作成します。
このシステムは、4人の参加者を含む実験プロトコルを通じて評価され、視線の精度、ロボット位置決め精度、およびピックアンドプレイスタスクの全体的な成功を評価しました。
結果は、1.28 cmから2.14 cmの範囲の個々の変動で、1.46 cmの平均視線固定誤差を示しました。
ロボットアームは、 +-1.53​​ cmの平均位置決め誤差を示し、インターフェイスの解像度とキャリブレーションの制約に起因する不一致がありました。
ピックアンドプレイスタスクでは、システムは80%の成功率を達成し、ユーザーへの視覚的なフィードバックとの人間とロボットの相互作用のアクセシビリティを改善する可能性を強調しました。

要約(オリジナル)

Individuals with upper limb mobility impairments often require assistive technologies to perform activities of daily living. While gaze-tracking has emerged as a promising method for robotic assistance, existing solutions lack sufficient feedback mechanisms, leading to uncertainty in user intent recognition and reduced adaptability. This paper presents the MIHRAGe interface, an integrated system that combines gaze-tracking, robotic assistance, and a mixed-reality to create an immersive environment for controlling the robot using only eye movements. The system was evaluated through an experimental protocol involving four participants, assessing gaze accuracy, robotic positioning precision, and the overall success of a pick and place task. Results showed an average gaze fixation error of 1.46 cm, with individual variations ranging from 1.28 cm to 2.14 cm. The robotic arm demonstrated an average positioning error of +-1.53 cm, with discrepancies attributed to interface resolution and calibration constraints. In a pick and place task, the system achieved a success rate of 80%, highlighting its potential for improving accessibility in human-robot interaction with visual feedback to the user.

arxiv情報

著者 Rafael R. Baptista,Nina R. Gerszberg,Ricardo V. Godoy,Gustavo J. G. Lahr
発行日 2025-05-06 19:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | MIHRaGe: A Mixed-Reality Interface for Human-Robot Interaction via Gaze-Oriented Control はコメントを受け付けていません

NMPC-Lander: Nonlinear MPC with Barrier Function for UAV Landing on a Mobile Platform

要約

Quadcoptersは、多数の重要なアプリケーションで人気を博している多用途の航空ロボットです。
ただし、運用上の有効性は、限られたバッテリー寿命と制限された飛行範囲によって制約されています。
これらの課題に対処するために、固定またはモバイルの充電およびバッテリースワッピングステーションに着陸する自律的なドローンが不可欠な機能となっています。
この研究では、静的プラットフォームと動的プラットフォームの両方に正確で安全な自律的な着陸を実現するために、非線形モデル予測制御(NMPC)を制御バリア関数(CBF)と統合する新しい制御アーキテクチャであるNMPC-Landerを提示します。
私たちのアプローチは、正確な軌跡の追跡と着陸のためにNMPCを採用していますが、同時にCBFを組み込んで静的な障害物との衝突回避を確保しています。
実際のハードウェアでの実験的評価は、着陸シナリオで高精度が高いことを示しており、定常プラットフォームとモバイルプラットフォームでそれぞれ9.0 cmと11 cmの平均最終位置誤差があります。
特に、NMPCランダーは、b-splineをA*スプラインと組み合わせて、位置追跡に関してほぼ3倍に優れており、その優れた堅牢性と実用的な効果を強調しています。

要約(オリジナル)

Quadcopters are versatile aerial robots gaining popularity in numerous critical applications. However, their operational effectiveness is constrained by limited battery life and restricted flight range. To address these challenges, autonomous drone landing on stationary or mobile charging and battery-swapping stations has become an essential capability. In this study, we present NMPC-Lander, a novel control architecture that integrates Nonlinear Model Predictive Control (NMPC) with Control Barrier Functions (CBF) to achieve precise and safe autonomous landing on both static and dynamic platforms. Our approach employs NMPC for accurate trajectory tracking and landing, while simultaneously incorporating CBF to ensure collision avoidance with static obstacles. Experimental evaluations on the real hardware demonstrate high precision in landing scenarios, with an average final position error of 9.0 cm and 11 cm for stationary and mobile platforms, respectively. Notably, NMPC-Lander outperforms the B-spline combined with the A* planning method by nearly threefold in terms of position tracking, underscoring its superior robustness and practical effectiveness.

arxiv情報

著者 Amber Batool,Faryal Batool,Roohan Ahmed Khan,Muhammad Ahsan Mustafa,Aleksey Fedoseev,Dzmitry Tsetserukou
発行日 2025-05-06 19:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | NMPC-Lander: Nonlinear MPC with Barrier Function for UAV Landing on a Mobile Platform はコメントを受け付けていません