Detection and Tracking of MAVs Using a Rosette Scanning Pattern LiDAR

要約

商業用マイクロ航空車両(MAV)の使用は過去10年間で急増しており、社会的利益を提供するだけでなく、空域違反やプライバシーの懸念などのリスクを引き起こしています。
セキュリティリスクの増加により、自律的なドローン検出および追跡システムの開発が優先事項になっています。
この研究では、非反復的なロゼットスキャンパターンLIDARを使用して、特にセンサーの特性を活用することで検出距離を増やすことに焦点を当てて、この課題に取り組みます。
提示されたメソッドは、ドローンの検出と追跡のために速度成分を備えた粒子フィルターを使用して、追加の再検出機能を提供します。
パンチルトプラットフォームが利用され、測定が最も密度が高い中央に追跡されたオブジェクトを保持することにより、ロゼットスキャンパターンLIDARの特定の特性を活用します。
システムの検出機能と精度は屋内実験を通じて検証されますが、最大検出距離は屋外実験で示されています。
私たちのアプローチは、最先端の屋内法と同等の精度を達成し、最大の検出範囲を最先端の屋外方法を超えて約80 \%増加させました。

要約(オリジナル)

The use of commercial Micro Aerial Vehicles (MAVs) has surged in the past decade, offering societal benefits but also raising risks such as airspace violations and privacy concerns. Due to the increased security risks, the development of autonomous drone detection and tracking systems has become a priority. In this study, we tackle this challenge, by using non-repetitive rosette scanning pattern LiDARs, particularly focusing on increasing the detection distance by leveraging the characteristics of the sensor. The presented method utilizes a particle filter with a velocity component for the detection and tracking of the drone, which offers added re-detection capability. A Pan-Tilt platform is utilized to take advantage of the specific characteristics of the rosette scanning pattern LiDAR by keeping the tracked object in the center where the measurement is most dense. The detection capabilities and accuracy of the system are validated through indoor experiments, while the maximum detection distance is shown in our outdoor experiments. Our approach achieved accuracy on par with the state-of-the-art indoor method while increasing the maximum detection range by approximately 80\% beyond the state-of-the-art outdoor method.

arxiv情報

著者 Sándor Gazdag,Tom Möller,Anita Keszler,András L. Majdik
発行日 2025-02-24 16:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Detection and Tracking of MAVs Using a Rosette Scanning Pattern LiDAR はコメントを受け付けていません

Traveling Waves Integrate Spatial Information Through Time

要約

神経活動の移動波は脳で広く観察されていますが、それらの正確な計算機能は不明のままです。
顕著な仮説の1つは、神経集団間の空間情報の移動と統合を可能にするということです。
ただし、このような統合処理を実行するために、移動波がどのように活用されるかを調査した計算モデルはほとんどありません。
有名な「ドラムの形を聞くことができますか?」からインスピレーションを引き出します。
問題 – 波のダイナミクスの通常のモードが幾何学的情報をエンコードする方法を強調する – 同様の原則を人工ニューラルネットワークで活用できるかどうかを調査します。
具体的には、視覚刺激に応じて隠された状態で移動波を生成することを学ぶ通性再発性ニューラルネットワークを導入し、空間的統合を可能にします。
その後、これらの波のような活性化シーケンスを視覚表現自体として扱うことにより、グローバルな空間コンテキストを必要とするタスク上のローカルフィードフォワードネットワークを上回る強力な表現空間を取得します。
特に、移動波は局所的に接続されたニューロンの受容フィールドを効果的に拡大し、長距離エンコードと情報の通信をサポートすることが観察されます。
このメカニズムを装備したモデルは、グローバルな統合を要求する視覚セマンティックセグメンテーションタスクを解決し、ローカルフィードフォワードモデルを大幅に上回り、パラメーターが少ない非ローカルU-NETモデルに匹敵することを実証します。
人工ネットワークにおける旅行波ベースのコミュニケーションと視覚的表現への最初のステップとして、我々の調査結果は、波動部門が効率とトレーニングの安定性の利点を提供すると同時に、モデルを神経活動の生物学的記録に接続するための新しいフレームワークを提供する可能性があることを示唆しています。

要約(オリジナル)

Traveling waves of neural activity are widely observed in the brain, but their precise computational function remains unclear. One prominent hypothesis is that they enable the transfer and integration of spatial information across neural populations. However, few computational models have explored how traveling waves might be harnessed to perform such integrative processing. Drawing inspiration from the famous ‘Can one hear the shape of a drum?’ problem — which highlights how normal modes of wave dynamics encode geometric information — we investigate whether similar principles can be leveraged in artificial neural networks. Specifically, we introduce convolutional recurrent neural networks that learn to produce traveling waves in their hidden states in response to visual stimuli, enabling spatial integration. By then treating these wave-like activation sequences as visual representations themselves, we obtain a powerful representational space that outperforms local feed-forward networks on tasks requiring global spatial context. In particular, we observe that traveling waves effectively expand the receptive field of locally connected neurons, supporting long-range encoding and communication of information. We demonstrate that models equipped with this mechanism solve visual semantic segmentation tasks demanding global integration, significantly outperforming local feed-forward models and rivaling non-local U-Net models with fewer parameters. As a first step toward traveling-wave-based communication and visual representation in artificial networks, our findings suggest wave-dynamics may provide efficiency and training stability benefits, while simultaneously offering a new framework for connecting models to biological recordings of neural activity.

arxiv情報

著者 Mozes Jacobs,Roberto C. Budzinski,Lyle Muller,Demba Ba,T. Anderson Keller
発行日 2025-02-24 16:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Traveling Waves Integrate Spatial Information Through Time はコメントを受け付けていません

AnyTop: Character Animation Diffusion with Any Topology

要約

任意のスケルトンの動きを生成することは、コンピューターグラフィックスの長年の課題であり、多様なデータセットの不足とデータの不規則な性質のためにほとんど未発表のままです。
この作業では、骨格構造のみを入力として使用して、異なるモーションダイナミクスを持つ多様な文字の動きを生成する拡散モデルであるAnyTopを紹介します。
私たちの作品は、任意のスケルトン学習に合わせた変圧器ベースの除去ネットワークを特徴としており、トポロジー情報を従来の注意メカニズムに統合しています。
さらに、テキストの共同説明を潜在的な特徴表現に組み込むことにより、AnyTopは、多様なスケルトン全体のジョイント間のセマンティック対応を学習します。
私たちの評価は、トポロジごとにわずか3つのトレーニング例であっても、Anytopがよく一般化され、目に見えないスケルトンの動きも生成できることを示しています。
さらに、モデルの潜在スペースは非常に有益であり、共同通信、時間的セグメンテーション、モーション編集などの下流タスクを可能にします。
当社のWebページhttps://anytop2025.github.io/anytop-pageには、ビデオとコードへのリンクが含まれています。

要約(オリジナル)

Generating motion for arbitrary skeletons is a longstanding challenge in computer graphics, remaining largely unexplored due to the scarcity of diverse datasets and the irregular nature of the data. In this work, we introduce AnyTop, a diffusion model that generates motions for diverse characters with distinct motion dynamics, using only their skeletal structure as input. Our work features a transformer-based denoising network, tailored for arbitrary skeleton learning, integrating topology information into the traditional attention mechanism. Additionally, by incorporating textual joint descriptions into the latent feature representation, AnyTop learns semantic correspondences between joints across diverse skeletons. Our evaluation demonstrates that AnyTop generalizes well, even with as few as three training examples per topology, and can produce motions for unseen skeletons as well. Furthermore, our model’s latent space is highly informative, enabling downstream tasks such as joint correspondence, temporal segmentation and motion editing. Our webpage, https://anytop2025.github.io/Anytop-page, includes links to videos and code.

arxiv情報

著者 Inbar Gat,Sigal Raab,Guy Tevet,Yuval Reshef,Amit H. Bermano,Daniel Cohen-Or
発行日 2025-02-24 17:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | AnyTop: Character Animation Diffusion with Any Topology はコメントを受け付けていません

Steerable Transformers

要約

この作業では、特別なユークリッドグループ$ \ mathrm {se}(d)$への等量を維持する視覚変圧器メカニズムの拡張である操縦可能な変圧器を導入します。
操縦可能な畳み込みによって抽出された特徴で動作する同等の注意メカニズムを提案します。
フーリエスペースで動作する当社のネットワークは、フーリエスペースの非線形性を利用しています。
2次元と3次元の両方での実験は、操縦可能な変圧器層を操縦可能な畳み込みネットワークに追加することでパフォーマンスが向上することを示しています。

要約(オリジナル)

In this work we introduce Steerable Transformers, an extension of the Vision Transformer mechanism that maintains equivariance to the special Euclidean group $\mathrm{SE}(d)$. We propose an equivariant attention mechanism that operates on features extracted by steerable convolutions. Operating in Fourier space, our network utilizes Fourier space non-linearities. Our experiments in both two and three dimensions show that adding steerable transformer layers to steerable convolutional networks enhances performance.

arxiv情報

著者 Soumyabrata Kundu,Risi Kondor
発行日 2025-02-24 17:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Steerable Transformers はコメントを受け付けていません

Leveraging Procedural Knowledge and Task Hierarchies for Efficient Instructional Video Pre-training

要約

教育ビデオは、新しいタスク(たとえば、レシピの調理、または家具の組み立て)を学ぶための便利なモダリティを提供します。
視聴者は、関心のある全体的なタスクの両方を反映した対応するビデオを見つけたいだけでなく、タスクを実行するために必要な関連手順を含むことをお勧めします。
これを実行するには、インストラクションビデオモデルは、タスクと入力ビデオで発生する手順の両方を推測できる必要があります。
このモデルのトレーニングに使用されるビデオの計算または関連するビデオトピックが限られている場合、これを効率的かつ一般化可能な方法で行うことが重要です。
これらの要件に対処するために、タスク階層と教育ビデオに関連する手続きステップを明示的に採掘します。
この事前知識を使用して、ステップとタスクの予測のために、モデル$ \ texttt {pivot} $を事前に引き出します。
トレーニング前に、下流タスクに使用するモデルを最適に特定するために、ビデオの増強と早期停止戦略も提供します。
この事前に訓練されたモデルを、2つのダウンストリームデータセットでタスク認識、ステップ認識、およびステップ予測タスクについてテストします。
トレーニング前のデータと計算が制限されている場合、これらのタスクに沿って以前のベースラインよりも優れています。
したがって、以前のタスクとステップ構造を活用すると、教育ビデオ推奨のために$ \ texttt {pivot} $の効率的なトレーニングが可能になります。

要約(オリジナル)

Instructional videos provide a convenient modality to learn new tasks (ex. cooking a recipe, or assembling furniture). A viewer will want to find a corresponding video that reflects both the overall task they are interested in as well as contains the relevant steps they need to carry out the task. To perform this, an instructional video model should be capable of inferring both the tasks and the steps that occur in an input video. Doing this efficiently and in a generalizable fashion is key when compute or relevant video topics used to train this model are limited. To address these requirements we explicitly mine task hierarchies and the procedural steps associated with instructional videos. We use this prior knowledge to pre-train our model, $\texttt{Pivot}$, for step and task prediction. During pre-training, we also provide video augmentation and early stopping strategies to optimally identify which model to use for downstream tasks. We test this pre-trained model on task recognition, step recognition, and step prediction tasks on two downstream datasets. When pre-training data and compute are limited, we outperform previous baselines along these tasks. Therefore, leveraging prior task and step structures enables efficient training of $\texttt{Pivot}$ for instructional video recommendation.

arxiv情報

著者 Karan Samel,Nitish Sontakke,Irfan Essa
発行日 2025-02-24 17:29:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Procedural Knowledge and Task Hierarchies for Efficient Instructional Video Pre-training はコメントを受け付けていません

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

要約

トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツを使用して大規模なビジョン言語モデル(VLM)をトレーニングするために使用されたかどうかを確認するにはどうすればよいですか?
VLMがトレーニングコーパスの画像を認識できるという仮説に動機付けられているため、モデルの開発中に著作権で保護されたコンテンツを含めることを推測するための新しいアプローチであるDIS-COを提案します。
ターゲットを絞った著作権で保護された素材から特定のフレームを使用してVLMを繰り返しクエリすることにより、DIS-COはフリーフォームテキストの完成を通じてコン​​テンツのIDを抽出します。
その有効性を評価するために、モデルのトレーニングカットオフの前後でリリースされたフィルムから描かれた詳細なキャプションとペアになった14,000フレームを含むベンチマークであるMovietectionを紹介します。
我々の結果は、DIS-COが検出パフォーマンスを大幅に改善し、ロジットを使用してモデルで最良の最適な方法の平均AUCをほぼ2倍にすることを示しています。
私たちの調査結果は、より広範な懸念も強調しています。すべてのテストされたモデルは、著作権で保護されたコンテンツにある程度さらされているようです。
私たちのコードとデータは、https://github.com/avduarte333/dis-coで入手できます

要約(オリジナル)

How can we verify whether copyrighted content was used to train a large vision-language model (VLM) without direct access to its training data? Motivated by the hypothesis that a VLM is able to recognize images from its training corpus, we propose DIS-CO, a novel approach to infer the inclusion of copyrighted content during the model’s development. By repeatedly querying a VLM with specific frames from targeted copyrighted material, DIS-CO extracts the content’s identity through free-form text completions. To assess its effectiveness, we introduce MovieTection, a benchmark comprising 14,000 frames paired with detailed captions, drawn from films released both before and after a model’s training cutoff. Our results show that DIS-CO significantly improves detection performance, nearly doubling the average AUC of the best prior method on models with logits available. Our findings also highlight a broader concern: all tested models appear to have been exposed to some extent to copyrighted content. Our code and data are available at https://github.com/avduarte333/DIS-CO

arxiv情報

著者 André V. Duarte,Xuandong Zhao,Arlindo L. Oliveira,Lei Li
発行日 2025-02-24 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | DIS-CO: Discovering Copyrighted Content in VLMs Training Data はコメントを受け付けていません

RELICT: A Replica Detection Framework for Medical Image Generation

要約

深い学習モデルの一般化を強化し、改善するための合成医療データの可能性にもかかわらず、生成モデルの記憶は、敏感な患者情報の意図しない漏れにつながり、モデルのユーティリティを制限する可能性があります。
したがって、医療ドメインで生成モデルを記憶することの使用は、患者のプライバシーを危険にさらす可能性があります。
合成医療画像データセットで、レプリカ、つまりトレーニングデータのほぼ同一のコピーを識別するためのフレームワークを提案します。
医療画像モデルのレプリカ検出(リリクト)フレームワークは、3つの補完的なアプローチを使用して画像の類似性を評価します:(1)ボクセルレベル分析、(2)前処理された医療基礎モデルによる特徴レベル分析、および(3)セグメンテーションレベル分析

2つの臨床的に関連する3D生成モデリングユースケースが調査されました。脳内出血(n = 774)とウィリスのサークルの血管造影時間(n = 1,782)を備えた非コントラストヘッドCT。
エキスパートの視覚スコアリングは、レプリカの存在を評価するための参照標準として使用されました。
バランスの取れた精度を最適なしきい値で報告して、レプリカ分類パフォーマンスを評価します。
参照視覚評価では、それぞれNCCTおよびTOF-MRAユースケースのレプリカとして生成された画像のうち45と5つのうち45と5が識別されました。
NCCTユースケースに最適なしきい値が選択された場合、画像レベルと機能レベルの測定完全に分類されたレプリカが1のバランスの取れた精度が1の場合です。
TOF-MRAケースのレプリカの完全な分類は、どのしきい値でも不可能であり、セグメンテーションレベルの分析は0.79のバランスの取れた精度を達成しました。
レプリカ検出は、医療イメージングにおける生成モデルの開発のための重要ではあるが無視された検証ステップです。
提案されたリリクトフレームワークは、レプリカ検出のための標準化された使いやすいツールを提供し、責任ある倫理的な医療イメージの合成を促進することを目的としています。

要約(オリジナル)

Despite the potential of synthetic medical data for augmenting and improving the generalizability of deep learning models, memorization in generative models can lead to unintended leakage of sensitive patient information and limit model utility. Thus, the use of memorizing generative models in the medical domain can jeopardize patient privacy. We propose a framework for identifying replicas, i.e. nearly identical copies of the training data, in synthetic medical image datasets. Our REpLIca deteCTion (RELICT) framework for medical image generative models evaluates image similarity using three complementary approaches: (1) voxel-level analysis, (2) feature-level analysis by a pretrained medical foundation model, and (3) segmentation-level analysis. Two clinically relevant 3D generative modelling use cases were investigated: non-contrast head CT with intracerebral hemorrhage (N=774) and time-of-flight MR angiography of the Circle of Willis (N=1,782). Expert visual scoring was used as the reference standard to assess the presence of replicas. We report the balanced accuracy at the optimal threshold to assess replica classification performance. The reference visual rating identified 45 of 50 and 5 of 50 generated images as replicas for the NCCT and TOF-MRA use cases, respectively. Image-level and feature-level measures perfectly classified replicas with a balanced accuracy of 1 when an optimal threshold was selected for the NCCT use case. A perfect classification of replicas for the TOF-MRA case was not possible at any threshold, with the segmentation-level analysis achieving a balanced accuracy of 0.79. Replica detection is a crucial but neglected validation step for the development of generative models in medical imaging. The proposed RELICT framework provides a standardized, easy-to-use tool for replica detection and aims to facilitate responsible and ethical medical image synthesis.

arxiv情報

著者 Orhun Utku Aydin,Alexander Koch,Adam Hilbert,Jana Rieger,Felix Lohrke,Fujimaro Ishida,Satoru Tanioka,Dietmar Frey
発行日 2025-02-24 17:37:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | RELICT: A Replica Detection Framework for Medical Image Generation はコメントを受け付けていません

MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems

要約

ラベルフリーの細胞分類は、さらなる使用または検査のために手付かずの細胞を供給するのに有利ですが、既存の手法は、特異性と速度の点でしばしば不足しています。
この研究では、新しい機械学習フレームワークの開発、多重画像機械学習(MIML)の開発を通じてこれらの制限に対処します。
このアーキテクチャは、ラベルフリーのセル画像と生体力学的特性データを独自に組み合わせており、各セルに固有の広大で十分に活用されていない形態学的情報を活用しています。
両方のタイプのデータを統合することにより、私たちのモデルは、従来の機械学習モデルで通常破棄される形態情報を利用して、細胞特性をより全体的に理解することを提供します。
このアプローチにより、セル分類における98.3%の精度が顕著になりました。これは、単一のデータ型のみを考慮するモデルよりも大幅に改善されています。
MIMLは、白血球および腫瘍細胞の分類に効果的であることが証明されており、その固有の柔軟性と転送学習能力のために、より広範な適用の可能性があります。
これは、同様の形態があるが異なる生体力学的特性を持つ細胞に特に効果的です。
この革新的なアプローチは、疾患の診断を進めることから細胞の挙動の理解まで、さまざまな分野で重要な意味を持っています。

要約(オリジナル)

Label-free cell classification is advantageous for supplying pristine cells for further use or examination, yet existing techniques frequently fall short in terms of specificity and speed. In this study, we address these limitations through the development of a novel machine learning framework, Multiplex Image Machine Learning (MIML). This architecture uniquely combines label-free cell images with biomechanical property data, harnessing the vast, often underutilized morphological information intrinsic to each cell. By integrating both types of data, our model offers a more holistic understanding of the cellular properties, utilizing morphological information typically discarded in traditional machine learning models. This approach has led to a remarkable 98.3\% accuracy in cell classification, a substantial improvement over models that only consider a single data type. MIML has been proven effective in classifying white blood cells and tumor cells, with potential for broader application due to its inherent flexibility and transfer learning capability. It’s particularly effective for cells with similar morphology but distinct biomechanical properties. This innovative approach has significant implications across various fields, from advancing disease diagnostics to understanding cellular behavior.

arxiv情報

著者 Khayrul Islam,Ratul Paul,Shen Wang,Yuwen Zhao,Partho Adhikary,Qiying Li,Xiaochen Qin,Yaling Liu
発行日 2025-02-24 17:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, q-bio.QM | MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems はコメントを受け付けていません

KV-Edit: Training-Free Image Editing for Precise Background Preservation

要約

背景の一貫性は、画像編集タスクにおける重要な課題のままです。
広範な開発にもかかわらず、既存の作品は、元の画像との類似性を維持することと、ターゲットと一致するコンテンツを生成することとのトレードオフに直面しています。
ここでは、KV-Editを提案します。KV-Editは、KVキャッシュをDITで使用してバックグラウンドの一貫性を維持するトレーニングなしのアプローチを提案します。バックグラウンドトークンが再生されるのではなく保存され、複雑なメカニズムや高価なトレーニングの必要性を排除し、最終的にシームレスに統合する新しいコンテンツを生成することを提案します。
バックグラウンドがユーザーが提供する領域内。
さらに、編集中のKVキャッシュのメモリ消費を調査し、逆転のない方法を使用してスペースの複雑さを$ O(1)$に最適化します。
私たちのアプローチは、追加のトレーニングなしで、DITベースの生成モデルと互換性があります。
実験は、KV-EDITが、背景と画質の両方の点で既存のアプローチを大幅に上回ることを示しています。
プロジェクトWebページは、https://xilluill.github.io/projectpages/kv-editで入手できます

要約(オリジナル)

Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to $O(1)$ using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

arxiv情報

著者 Tianrui Zhu,Shiyi Zhang,Jiawei Shao,Yansong Tang
発行日 2025-02-24 17:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KV-Edit: Training-Free Image Editing for Precise Background Preservation はコメントを受け付けていません

Experimental validation of UAV search and detection system in real wilderness environment

要約

Search and Rescue(SAR)ミッションには、特に挑戦的またはアクセスできない環境で、生存者を見つけるための信頼できる検索方法が必要です。
これが、無人航空機(UAV)を導入することが、SARミッションの効率を高めながら、ミッションに関係するすべての人の安全性を同時に増やすのに非常に役立つ可能性がある理由です。
これに動機付けられて、私たちは地中海のカルスト環境で人間の自律的なUAV検索を設計および実験します。
UAVは、既知の確率密度と検出関数に応じて、熱方程式駆動型エリアカバレッジ(HEDAC)エルゴード制御法を使用して向けられます。
実装されたセンシングフレームワークは、確率的検索モデル、モーション制御システム、およびコンピュータービジョンオブジェクトの検出で構成されています。
これにより、SARミッションでターゲットが検出される可能性の計算が可能になり、このペーパーでは、提案された確率的フレームワークとUAV制御の実験的検証に焦点を当てています。
目的の検索エリアでターゲットを見つける確率を確保するための均一な確率密度は、78人のボランティアに適切に考え抜かれたタスクを割り当てることにより達成されます。
検出モデルはYoloに基づいており、以前に収集されたOrtho-Photo画像データベースで訓練されています。
実験検索は慎重に計画および実施されますが、可能な限り多くのパラメーターが記録されます。
徹底的な分析は、モーション制御システム、オブジェクト検出、および検索検証で構成されています。
検出および検索パフォーマンスの評価は、UAVコントロールアルゴリズムの設計された検出モデルが実際の結果と一致していることを強く示しています。

要約(オリジナル)

Search and rescue (SAR) missions require reliable search methods to locate survivors, especially in challenging or inaccessible environments. This is why introducing unmanned aerial vehicles (UAVs) can be of great help to enhance the efficiency of SAR missions while simultaneously increasing the safety of everyone involved in the mission. Motivated by this, we design and experiment with autonomous UAV search for humans in a Mediterranean karst environment. The UAVs are directed using Heat equation-driven area coverage (HEDAC) ergodic control method according to known probability density and detection function. The implemented sensing framework consists of a probabilistic search model, motion control system, and computer vision object detection. It enables calculation of the probability of the target being detected in the SAR mission, and this paper focuses on experimental validation of proposed probabilistic framework and UAV control. The uniform probability density to ensure the even probability of finding the targets in the desired search area is achieved by assigning suitably thought-out tasks to 78 volunteers. The detection model is based on YOLO and trained with a previously collected ortho-photo image database. The experimental search is carefully planned and conducted, while as many parameters as possible are recorded. The thorough analysis consists of the motion control system, object detection, and the search validation. The assessment of the detection and search performance provides strong indication that the designed detection model in the UAV control algorithm is aligned with real-world results.

arxiv情報

著者 Stella Dumenčić,Luka Lanča,Karlo Jakac,Stefan Ivić
発行日 2025-02-24 17:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | Experimental validation of UAV search and detection system in real wilderness environment はコメントを受け付けていません