Mono2D: A Trainable Monogenic Layer for Robust Knee Cartilage Segmentation on Out-of-Distribution 2D Ultrasound Data

要約

ポイントオブケアの超音波デバイスとディープラーニングネットワークを使用した自動膝軟骨セグメンテーションは、膝の変形性関節症の管理を強化する可能性があります。
ただし、セグメンテーションアルゴリズムはしばしば、超音波デバイスと取得パラメーターの変動によって引き起こされるドメインシフトと格闘し、一般化可能性を制限します。
このホワイトペーパーでは、トレーニング可能なバンドパス通気フィルターを使用して、マルチスケール、コントラスト、および強度不変の局所位相特徴を抽出するモノン生成層であるMono2Dを提案します。
このレイヤーはドメインのシフトを緩和し、分散型ドメインへの一般化を改善します。
Mono2Dは、セグメンテーションネットワークの最初のレイヤーの前に統合され、そのパラメーターはネットワークのパラメーターと一緒に共同でトレーニングされます。
単一ソースドメイン一般化(SSDG)のマルチドメイン2D超音波膝軟骨データセットでMono2Dを評価しました。
私たちの結果は、Mono2DがDICEスコアと平均平均表面距離の観点から他のSSDGメソッドを上回ることを示しています。
その一般化可能性をさらに評価するために、多サイトの前立腺MRIデータセットでMono2Dを評価します。そこでは、他のSSDGメソッドを上回り続け、医療イメージングのドメイン一般化を改善する可能性を強調しています。
それにもかかわらず、その臨床的有用性を評価するには、多様なデータセットのさらなる評価が依然として必要です。

要約(オリジナル)

Automated knee cartilage segmentation using point-of-care ultrasound devices and deep-learning networks has the potential to enhance the management of knee osteoarthritis. However, segmentation algorithms often struggle with domain shifts caused by variations in ultrasound devices and acquisition parameters, limiting their generalizability. In this paper, we propose Mono2D, a monogenic layer that extracts multi-scale, contrast- and intensity-invariant local phase features using trainable bandpass quadrature filters. This layer mitigates domain shifts, improving generalization to out-of-distribution domains. Mono2D is integrated before the first layer of a segmentation network, and its parameters jointly trained alongside the network’s parameters. We evaluated Mono2D on a multi-domain 2D ultrasound knee cartilage dataset for single-source domain generalization (SSDG). Our results demonstrate that Mono2D outperforms other SSDG methods in terms of Dice score and mean average surface distance. To further assess its generalizability, we evaluate Mono2D on a multi-site prostate MRI dataset, where it continues to outperform other SSDG methods, highlighting its potential to improve domain generalization in medical imaging. Nevertheless, further evaluation on diverse datasets is still necessary to assess its clinical utility.

arxiv情報

著者 Alvin Kimbowa,Arjun Parmar,Maziar Badii,David Liu,Matthew Harkey,Ilker Hacihaliloglu
発行日 2025-03-21 15:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Mono2D: A Trainable Monogenic Layer for Robust Knee Cartilage Segmentation on Out-of-Distribution 2D Ultrasound Data はコメントを受け付けていません

Matrix3D: Large Photogrammetry Model All-in-One

要約

同じモデルを使用して、ポーズ推定、深度予測、新しいビュー合成を含むいくつかの写真測量測定サブタスクを実行する統合モデルであるMatrix3Dを提示します。
Matrix3Dは、マルチモーダル拡散トランス(DIT)を利用して、画像、カメラパラメーター、深度マップなどのいくつかのモダリティにわたって変換を統合します。
Matrix3Dの大規模なマルチモーダルトレーニングの鍵は、マスク学習戦略の組み込みにあります。
これにより、画像ポーズや画像の深いペアのバイモダリティデータなど、部分的に完全なデータを使用してもフルモダリティモデルトレーニングが可能になるため、利用可能なトレーニングデータのプールが大幅に増加します。
Matrix3dは、ポーズ推定と新しいビュー合成タスクの最先端のパフォーマンスを示しています。
さらに、マルチラウンドの相互作用を通じて細粒の制御を提供し、3Dコンテンツ作成のための革新的なツールになります。
プロジェクトページ:https://nju-3dv.github.io/projects/matrix3d。

要約(オリジナル)

We present Matrix3D, a unified model that performs several photogrammetry subtasks, including pose estimation, depth prediction, and novel view synthesis using just the same model. Matrix3D utilizes a multi-modal diffusion transformer (DiT) to integrate transformations across several modalities, such as images, camera parameters, and depth maps. The key to Matrix3D’s large-scale multi-modal training lies in the incorporation of a mask learning strategy. This enables full-modality model training even with partially complete data, such as bi-modality data of image-pose and image-depth pairs, thus significantly increases the pool of available training data. Matrix3D demonstrates state-of-the-art performance in pose estimation and novel view synthesis tasks. Additionally, it offers fine-grained control through multi-round interactions, making it an innovative tool for 3D content creation. Project page: https://nju-3dv.github.io/projects/matrix3d.

arxiv情報

著者 Yuanxun Lu,Jingyang Zhang,Tian Fang,Jean-Daniel Nahmias,Yanghai Tsin,Long Quan,Xun Cao,Yao Yao,Shiwei Li
発行日 2025-03-21 15:10:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Matrix3D: Large Photogrammetry Model All-in-One はコメントを受け付けていません

A Language Anchor-Guided Method for Robust Noisy Domain Generalization

要約

現実世界の機械学習アプリケーションは、分布シフトとラベルノイズという2つの主要な課題に苦労していることがよくあります。
モデルは、トレーニングデータの冗長で情報のない機能に焦点を当てることで過剰にでもきつく傾向があるため、ターゲットドメインに一般化することが困難になります。
ノイズの多いデータは、ノイズにさらなる過剰適合を引き起こすことによりこの問題を悪化させます。つまり、既存の方法は、真の不変の特徴と誤解を招くような偽物の違いを知らせないことが多いことを意味します。
これらの問題に取り組むために、アンカーアライメントと適応重み(A3W)を紹介します。
この新しいアルゴリズムは、より代表的な機能を抽出するために、自然言語処理(NLP)のアンカーによって誘導されたサンプルの再筆主を使用します。
簡単に言えば、A3Wは、自然言語モデルのセマンティック表現をドメイン不変の事前知識のソースとして活用しています。
さらに、対応するNLPアンカーとの類似性に基づいて、各サンプルの寄与を調整する加重損失関数を使用します。
この調整により、モデルはノイズの多いラベルに対してより堅牢になります。
標準のベンチマークデータセットでの広範な実験は、A3Wが一貫して最先端のドメイン一般化方法を上回ることを示しており、異なるデータセットとノイズレベルにわたって精度と堅牢性の両方を大幅に改善することが示されています。

要約(オリジナル)

Real-world machine learning applications often struggle with two major challenges: distribution shift and label noise. Models tend to overfit by focusing on redundant and uninformative features in the training data, which makes it hard for them to generalize to the target domain. Noisy data worsens this problem by causing further overfitting to the noise, meaning that existing methods often fail to tell the difference between true, invariant features and misleading, spurious ones. To tackle these issues, we introduce Anchor Alignment and Adaptive Weighting (A3W). This new algorithm uses sample reweighting guided by natural language processing (NLP) anchors to extract more representative features. In simple terms, A3W leverages semantic representations from natural language models as a source of domain-invariant prior knowledge. Additionally, it employs a weighted loss function that adjusts each sample’s contribution based on its similarity to the corresponding NLP anchor. This adjustment makes the model more robust to noisy labels. Extensive experiments on standard benchmark datasets show that A3W consistently outperforms state-of-the-art domain generalization methods, offering significant improvements in both accuracy and robustness across different datasets and noise levels.

arxiv情報

著者 Zilin Dai,Lehong Wang,Fangzhou Lin,Yidong Wang,Zhigang Li,Kazunori D Yamada,Ziming Zhang,Wang Lu
発行日 2025-03-21 15:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | A Language Anchor-Guided Method for Robust Noisy Domain Generalization はコメントを受け付けていません

A Deep Learning Framework for Visual Attention Prediction and Analysis of News Interfaces

要約

ニュースアウトレットのニュースインターフェイスでの注意の競争により、人口統計学的に認識された顕著性予測モデルの必要性が強調されています。
ユーザーインターフェイス(UI)に適用された顕著性検出の最近の進歩にもかかわらず、既存のデータセットのサイズと人口統計の表現は限られています。
Deepgaze IIEを使用してSARA(顕著なランキング)モデルを強化する深い学習フレームワークを紹介し、顕著なオブジェクトランキング(SOR)パフォーマンスを10.7%改善します。
当社のフレームワークは、顕著性マップ生成、グリッドセグメントスコアリング、マップ正規化の3つの重要なコンポーネントを最適化します。
視線追跡(30人の参加者)とマウストラッキング(13〜70歳の375人の参加者)を使用した2倍の実験により、人口統計グループ全体で注意パターンを分析します。
統計分析では、有意な年齢ベースの変動(p <0.05、{\ epsilon^2} = 0.042)が明らかになり、年長のユーザー(36--70)がテキストコンテンツと若いユーザー(13--35)が画像とより多く対話することに従事しています。 マウス追跡データは、視線追跡挙動(SAUC = 0.86)に密接に近似し、すぐに目立つUI要素を識別し、大規模な研究での使用を検証します。 顕著な研究は、より大きな、人口統計的に代表的なサンプルからの収集データを優先し、正確な人口統計学的分布を報告する必要があると結論付けています。

要約(オリジナル)

News outlets’ competition for attention in news interfaces has highlighted the need for demographically-aware saliency prediction models. Despite recent advancements in saliency detection applied to user interfaces (UI), existing datasets are limited in size and demographic representation. We present a deep learning framework that enhances the SaRa (Saliency Ranking) model with DeepGaze IIE, improving Salient Object Ranking (SOR) performance by 10.7%. Our framework optimizes three key components: saliency map generation, grid segment scoring, and map normalization. Through a two-fold experiment using eye-tracking (30 participants) and mouse-tracking (375 participants aged 13–70), we analyze attention patterns across demographic groups. Statistical analysis reveals significant age-based variations (p < 0.05, {\epsilon^2} = 0.042), with older users (36--70) engaging more with textual content and younger users (13--35) interacting more with images. Mouse-tracking data closely approximates eye-tracking behavior (sAUC = 0.86) and identifies UI elements that immediately stand out, validating its use in large-scale studies. We conclude that saliency studies should prioritize gathering data from a larger, demographically representative sample and report exact demographic distributions.

arxiv情報

著者 Matthew Kenely,Dylan Seychell,Carl James Debono,Chris Porter
発行日 2025-03-21 15:20:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | A Deep Learning Framework for Visual Attention Prediction and Analysis of News Interfaces はコメントを受け付けていません

PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction

要約

ドキュメントレイアウト分析は、ドキュメントインテリジェンスの重要な前処理ステップであり、タイトル、テキストブロック、テーブル、式などの構造要素の検出とローカリゼーションを可能にします。
その重要性にもかかわらず、既存のレイアウト検出モデルは、多様なドキュメントタイプ全体で一般化し、複雑なレイアウトの処理、大規模なデータ処理のリアルタイムパフォーマンスを達成する上で重要な課題に直面しています。
これらの制限に対処するために、PP-Doclayoutを提示します。PP-Doclayoutは、多様なドキュメント形式で23種類のレイアウト領域を認識する際に高い精度と効率を達成します。
さまざまなニーズを満たすために、さまざまなスケールの3つのモデルを提供します。
PP-Doclayout-Lは、RT-Detr-L検出器に基づく高精度モデルであり、90.4%のMAP@0.5とT4 GPUでページあたり13.4 msのエンドツーエンドの推論時間を達成します。
PP-Doclayout-Mはバランスの取れたモデルであり、75.2%のMAP@0.5を提供し、T4 GPUで1ページあたり12.7ミリ秒の推論時間を提供します。
PP-Doclayout-Sは、リソース制約の環境とリアルタイムアプリケーション向けに設計された高効率モデルであり、T4 GPUで1ページあたり8.1ミリ秒、CPUで14.5ミリ秒の推論時間があります。
この作業は、ドキュメントレイアウト分析で最先端の最先端を進歩させるだけでなく、高品質のトレーニングデータを構築するための堅牢なソリューションを提供し、ドキュメントインテリジェンスとマルチモーダルAIシステムの進歩を可能にします。
コードとモデルはhttps://github.com/paddlepaddle/paddlexで入手できます。

要約(オリジナル)

Document layout analysis is a critical preprocessing step in document intelligence, enabling the detection and localization of structural elements such as titles, text blocks, tables, and formulas. Despite its importance, existing layout detection models face significant challenges in generalizing across diverse document types, handling complex layouts, and achieving real-time performance for large-scale data processing. To address these limitations, we present PP-DocLayout, which achieves high precision and efficiency in recognizing 23 types of layout regions across diverse document formats. To meet different needs, we offer three models of varying scales. PP-DocLayout-L is a high-precision model based on the RT-DETR-L detector, achieving 90.4% mAP@0.5 and an end-to-end inference time of 13.4 ms per page on a T4 GPU. PP-DocLayout-M is a balanced model, offering 75.2% mAP@0.5 with an inference time of 12.7 ms per page on a T4 GPU. PP-DocLayout-S is a high-efficiency model designed for resource-constrained environments and real-time applications, with an inference time of 8.1 ms per page on a T4 GPU and 14.5 ms on a CPU. This work not only advances the state of the art in document layout analysis but also provides a robust solution for constructing high-quality training data, enabling advancements in document intelligence and multimodal AI systems. Code and models are available at https://github.com/PaddlePaddle/PaddleX .

arxiv情報

著者 Ting Sun,Cheng Cui,Yuning Du,Yi Liu
発行日 2025-03-21 15:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction はコメントを受け付けていません

UniCoRN: Latent Diffusion-based Unified Controllable Image Restoration Network across Multiple Degradations

要約

画像の復元は、コンピュータービジョンタスク全体で劣化した画像を強化するために不可欠です。
ただし、ほとんどの既存の方法は、一度に単一のタイプの劣化(ぼやけ、ノイズ、ヘイズなど)のみに対処し、複数の分解が同時に発生することが多い現実世界の適用性を制限します。
この論文では、マルチヘッド拡散モデルを使用して複数の分解タイプを同時に処理できる統一された画像修復アプローチであるUnicornを提案します。
具体的には、現実世界の画像修復のための制御可能な拡散モデルをガイドする際に画像から抽出された低レベルの視覚キューの可能性を明らかにし、専門家の混合戦略を介して適応可能なマルチヘッド制御ネットワークを設計します。
スマートに設計されたカリキュラム学習レシピを通じて、特定の劣化を事前の仮定せずにモデルを訓練します。
さらに、複数の分解とアーティファクトを備えた画像を含むMetalensイメージングベンチマークであるMetarestoreも紹介します。
当社のベンチマークを含むいくつかの挑戦的なデータセットに関する広範な評価は、この方法が大幅なパフォーマンスの向上を達成し、深刻な劣化で画像を堅牢に回復できることを示しています。
プロジェクトページ:https://codejaeger.github.io/unicorn-gh

要約(オリジナル)

Image restoration is essential for enhancing degraded images across computer vision tasks. However, most existing methods address only a single type of degradation (e.g., blur, noise, or haze) at a time, limiting their real-world applicability where multiple degradations often occur simultaneously. In this paper, we propose UniCoRN, a unified image restoration approach capable of handling multiple degradation types simultaneously using a multi-head diffusion model. Specifically, we uncover the potential of low-level visual cues extracted from images in guiding a controllable diffusion model for real-world image restoration and we design a multi-head control network adaptable via a mixture-of-experts strategy. We train our model without any prior assumption of specific degradations, through a smartly designed curriculum learning recipe. Additionally, we also introduce MetaRestore, a metalens imaging benchmark containing images with multiple degradations and artifacts. Extensive evaluations on several challenging datasets, including our benchmark, demonstrate that our method achieves significant performance gains and can robustly restore images with severe degradations. Project page: https://codejaeger.github.io/unicorn-gh

arxiv情報

著者 Debabrata Mandal,Soumitri Chattopadhyay,Guansen Tong,Praneeth Chakravarthula
発行日 2025-03-21 15:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniCoRN: Latent Diffusion-based Unified Controllable Image Restoration Network across Multiple Degradations はコメントを受け付けていません

UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models

要約

大規模拡散モデルのトレーニングアダプターの制御と効率を高めるために設計された新しいアーキテクチャであるUniconを紹介します。
拡散モデルとコントロールアダプター間の双方向相互作用に依存する既存の方法とは異なり、ユニコンは拡散ネットワークからアダプターへの単方向の流れを実装し、アダプターだけが最終出力を生成できるようにします。
Uniconは、アダプタートレーニング中にグラデーションを計算および保存する拡散モデルの必要性を排除することにより、計算需要を削減します。
我々の結果は、ユニコンがGPUメモリの使用量を3分の1減らし、トレーニング速度を2.3倍増加させ、同じアダプターパラメーターサイズを維持することを示しています。
さらに、追加の計算リソースを必要とせずに、Uniconは既存のコントロールネットのパラメーター量の2倍のアダプターのトレーニングを可能にします。
一連の画像条件付き生成タスクでは、ユニコンはコントロール入力と例外的な生成能力に対する正確な応答性を実証しています。

要約(オリジナル)

We introduce UniCon, a novel architecture designed to enhance control and efficiency in training adapters for large-scale diffusion models. Unlike existing methods that rely on bidirectional interaction between the diffusion model and control adapter, UniCon implements a unidirectional flow from the diffusion network to the adapter, allowing the adapter alone to generate the final output. UniCon reduces computational demands by eliminating the need for the diffusion model to compute and store gradients during adapter training. Our results indicate that UniCon reduces GPU memory usage by one-third and increases training speed by 2.3 times, while maintaining the same adapter parameter size. Additionally, without requiring extra computational resources, UniCon enables the training of adapters with double the parameter volume of existing ControlNets. In a series of image conditional generation tasks, UniCon has demonstrated precise responsiveness to control inputs and exceptional generation capabilities.

arxiv情報

著者 Fanghua Yu,Jinjin Gu,Jinfan Hu,Zheyuan Li,Chao Dong
発行日 2025-03-21 15:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models はコメントを受け付けていません

Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation

要約

機械学習モデルがスケールと複雑さを増加させるにつれて、十分なトレーニングデータを取得することは、特殊なドメインの獲得コスト、プライバシーの制約、およびデータ不足により、重要なボトルネックになりました。
合成データ生成は有望な代替手段として浮上していますが、特にタスクの複雑さが増すにつれて、実際のデータでトレーニングされたモデルと比較して、顕著なパフォーマンスギャップは残ります。
同時に、ニューラルネットワークの学習強みと象徴的な推論の構造化表現を組み合わせた神経腫瘍法は、さまざまな認知タスクにわたって重要な可能性を示しています。
このホワイトペーパーでは、シーングラフ生成モデルのパフォーマンスの向上に特に焦点を当てた合成画像データセット生成のためのニューロシンボリック条件付けの有用性について説明します。
この研究では、シーングラフの形で構造化されたシンボリック表現が、リレーショナル制約の明示的なエンコードを通じて合成データの品質を高めることができるかどうかを調査しています。
結果は、ニューロシンボリックコンディショニングが、データセットの増強に使用された場合、標準リコールメトリックで最大 +2.59%、グラフ制約のないリコールメトリックで +2.83%の大幅な改善をもたらすことを示しています。
これらの調査結果は、ニューロシンボリックおよび生成アプローチをマージすることで、実際のデータと組み合わせるとモデルのパフォーマンスを向上させる補完的な構造情報と合成データが生成され、複雑な視覚推論タスクでもデータ希少性の制限を克服するための新しいアプローチを提供することが確立されています。

要約(オリジナル)

As machine learning models increase in scale and complexity, obtaining sufficient training data has become a critical bottleneck due to acquisition costs, privacy constraints, and data scarcity in specialised domains. While synthetic data generation has emerged as a promising alternative, a notable performance gap remains compared to models trained on real data, particularly as task complexity grows. Concurrently, Neuro-Symbolic methods, which combine neural networks’ learning strengths with symbolic reasoning’s structured representations, have demonstrated significant potential across various cognitive tasks. This paper explores the utility of Neuro-Symbolic conditioning for synthetic image dataset generation, focusing specifically on improving the performance of Scene Graph Generation models. The research investigates whether structured symbolic representations in the form of scene graphs can enhance synthetic data quality through explicit encoding of relational constraints. The results demonstrate that Neuro-Symbolic conditioning yields significant improvements of up to +2.59% in standard Recall metrics and +2.83% in No Graph Constraint Recall metrics when used for dataset augmentation. These findings establish that merging Neuro-Symbolic and generative approaches produces synthetic data with complementary structural information that enhances model performance when combined with real data, providing a novel approach to overcome data scarcity limitations even for complex visual reasoning tasks.

arxiv情報

著者 Giacomo Savazzi,Eugenio Lomurno,Cristian Sbrolli,Agnese Chiatti,Matteo Matteucci
発行日 2025-03-21 15:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Neuro-Symbolic Scene Graph Conditioning for Synthetic Image Dataset Generation はコメントを受け付けていません

Leveraging Text-to-Image Generation for Handling Spurious Correlation

要約

経験的リスク最小化でトレーニングされた深いニューラルネットワーク(ERM)は、トレーニングデータとテストデータの両方が同じドメインから来る場合、うまく機能しますが、多くの場合、分散分布サンプルに一般化できません。
画像分類では、これらのモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する偽の相関に依存している可能性があり、それらの機能が存在しない場合に信頼できない予測を行います。
偽りの相関問題に対処するためのテキストから画像(T2I)拡散モデルを使用してトレーニングサンプルを生成する手法を提案します。
まず、テキストの反転メカニズムによってサンプルの因果成分に関連する視覚的特徴のための最適なトークンを計算します。
次に、言語セグメンテーション法と拡散モデルを活用して、因果成分と他のクラスの要素を組み合わせることにより、新しいサンプルを生成します。
また、ERMモデルの予測確率と属性スコアに基づいて生成されたサンプルを細心の注意を払って剪定して、目標の正しい構成を確保します。
最後に、拡張データセットのERMモデルを再訓練します。
このプロセスは、この相関が存在しない慎重に作成されたサンプルから学習することにより、モデルの偽の相関への依存を減らします。
私たちの実験は、さまざまなベンチマークで、私たちの手法が既存の最先端の方法よりも優れた最悪のグループの精度を達成することを示しています。

要約(オリジナル)

Deep neural networks trained with Empirical Risk Minimization (ERM) perform well when both training and test data come from the same domain, but they often fail to generalize to out-of-distribution samples. In image classification, these models may rely on spurious correlations that often exist between labels and irrelevant features of images, making predictions unreliable when those features do not exist. We propose a technique to generate training samples with text-to-image (T2I) diffusion models for addressing the spurious correlation problem. First, we compute the best describing token for the visual features pertaining to the causal components of samples by a textual inversion mechanism. Then, leveraging a language segmentation method and a diffusion model, we generate new samples by combining the causal component with the elements from other classes. We also meticulously prune the generated samples based on the prediction probabilities and attribution scores of the ERM model to ensure their correct composition for our objective. Finally, we retrain the ERM model on our augmented dataset. This process reduces the model’s reliance on spurious correlations by learning from carefully crafted samples for in which this correlation does not exist. Our experiments show that across different benchmarks, our technique achieves better worst-group accuracy than the existing state-of-the-art methods.

arxiv情報

著者 Aryan Yazdan Parast,Basim Azam,Naveed Akhtar
発行日 2025-03-21 15:28:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Text-to-Image Generation for Handling Spurious Correlation はコメントを受け付けていません

Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID

要約

熱赤外ビデオで複数の無人航空機(UAV)を検出および追跡することは、コントラストが低い、環境ノイズ、および小さなターゲットサイズのために本質的に困難です。
このペーパーでは、熱赤外線ビデオでのマルチUAV追跡に対処するための簡単なアプローチを提供し、検出と追跡の最近の進歩を活用しています。
DeepsortパイプラインでYolov5に依存する代わりに、Yolov12とボットソートに構築された追跡フレームワークを紹介し、テーラードトレーニングと推論戦略で強化されました。
第4回Anti-UAVチャレンジのメトリックに従ってアプローチを評価し、競争力のあるパフォーマンスを実証します。
特に、Contrastの強化または時間的情報融合を使用してUAV機能を豊かにすることなく、強力な結果を達成し、マルチUAV追跡タスクの「強力なベースライン」としてのアプローチを強調しています。
実装の詳細、詳細な実験分析、および潜在的な改善の議論を提供します。
このコードは、https://github.com/wish44165/yolov12-bot-sort-reidで入手できます。

要約(オリジナル)

Detecting and tracking multiple unmanned aerial vehicles (UAVs) in thermal infrared video is inherently challenging due to low contrast, environmental noise, and small target sizes. This paper provides a straightforward approach to address multi-UAV tracking in thermal infrared video, leveraging recent advances in detection and tracking. Instead of relying on the YOLOv5 with the DeepSORT pipeline, we present a tracking framework built on YOLOv12 and BoT-SORT, enhanced with tailored training and inference strategies. We evaluate our approach following the metrics from the 4th Anti-UAV Challenge and demonstrate competitive performance. Notably, we achieve strong results without using contrast enhancement or temporal information fusion to enrich UAV features, highlighting our approach as a ‘Strong Baseline’ for the multi-UAV tracking task. We provide implementation details, in-depth experimental analysis, and a discussion of potential improvements. The code is available at https://github.com/wish44165/YOLOv12-BoT-SORT-ReID .

arxiv情報

著者 Yu-Hsi Chen
発行日 2025-03-21 15:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID はコメントを受け付けていません