ATM-Net: Anatomy-Aware Text-Guided Multi-Modal Fusion for Fine-Grained Lumbar Spine Segmentation

要約

脊椎疾患の診断には、正確な腰椎のセグメンテーションが不可欠である。既存のセグメンテーション手法では、正確な診断に必要な詳細な情報が得られない粗いセグメンテーション戦略が一般的である。さらに、視覚のみのモデルに依存しているため、解剖学的セマンティクスの把握が妨げられ、誤分類やセグメンテーションの詳細が不十分である。これらの限界に対処するため、我々は、解剖学的意味を認識し、テキストガイド付きの、腰椎部分構造(椎骨(VB)、椎間板(ID)、脊柱管(SC))のきめ細かいセグメンテーションのためのマルチモーダル融合メカニズムを採用した革新的なフレームワークであるATM-Netを紹介する。ATM-Netは、解剖学認識テキストプロンプトジェネレータ(ATPG)を採用し、画像注釈を異なるビューにおける解剖学認識プロンプトに適応的に変換する。これらの洞察はさらに、HASF(Holistic Anatomy-aware Semantic Fusion)モジュールを介して画像の特徴と統合され、包括的な解剖学的コンテキストが構築される。チャンネル単位のコントラスト解剖学的認識強化(CCAE)モジュールは、クラス単位のチャンネルレベルのマルチモーダルコントラスト学習により、クラス識別をさらに強化し、セグメンテーションを洗練させる。MRSpineSegとSPIDERデータセットでの広範な実験により、ATM-Netはクラス識別とセグメンテーションの詳細に関して一貫した改善により、最先端の手法を大幅に上回ることが実証された。例えば、ATM-NetはSPIDERにおいて79.39%のDiceと9.91ピクセルのHD95を達成し、それぞれ8.31%と4.14ピクセルの競合SpineParseNetを上回った。

要約(オリジナル)

Accurate lumbar spine segmentation is crucial for diagnosing spinal disorders. Existing methods typically use coarse-grained segmentation strategies that lack the fine detail needed for precise diagnosis. Additionally, their reliance on visual-only models hinders the capture of anatomical semantics, leading to misclassified categories and poor segmentation details. To address these limitations, we present ATM-Net, an innovative framework that employs an anatomy-aware, text-guided, multi-modal fusion mechanism for fine-grained segmentation of lumbar substructures, i.e., vertebrae (VBs), intervertebral discs (IDs), and spinal canal (SC). ATM-Net adopts the Anatomy-aware Text Prompt Generator (ATPG) to adaptively convert image annotations into anatomy-aware prompts in different views. These insights are further integrated with image features via the Holistic Anatomy-aware Semantic Fusion (HASF) module, building a comprehensive anatomical context. The Channel-wise Contrastive Anatomy-Aware Enhancement (CCAE) module further enhances class discrimination and refines segmentation through class-wise channel-level multi-modal contrastive learning. Extensive experiments on the MRSpineSeg and SPIDER datasets demonstrate that ATM-Net significantly outperforms state-of-the-art methods, with consistent improvements regarding class discrimination and segmentation details. For example, ATM-Net achieves Dice of 79.39% and HD95 of 9.91 pixels on SPIDER, outperforming the competitive SpineParseNet by 8.31% and 4.14 pixels, respectively.

arxiv情報

著者 Sheng Lian,Dengfeng Pan,Jianlong Cai,Guang-Yong Chen,Zhun Zhong,Zhiming Luo,Shen Zhao,Shuo Li
発行日 2025-04-04 14:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | ATM-Net: Anatomy-Aware Text-Guided Multi-Modal Fusion for Fine-Grained Lumbar Spine Segmentation はコメントを受け付けていません

Probabilistic Machine Learning for Noisy Labels in Earth Observation

要約

地球観測(EO)においてラベルノイズは重要な課題であり、教師あり機械学習(ML)モデルの性能と信頼性をしばしば低下させる。しかし、いくつかのEOアプリケーションの重要な性質を考慮すると、ロバストで信頼できるMLソリューションの開発は不可欠である。本研究では、確率的MLを活用して、入力依存のラベルノイズをモデル化し、EOタスクにおけるデータの不確実性を定量化することで、この方向への一歩を踏み出す。我々は、様々なノイズ源、入力モダリティ、ML構成にまたがる、インパクトの大きいEOアプリケーションの広範囲にわたって、不確実性を考慮した確率モデルを訓練し、その精度と信頼性を評価するための専用パイプラインを導入する。我々の実験結果は、不確実性を考慮したモデルが、ほとんどのデータセットと評価指標において、標準的な決定論的アプローチを一貫して上回ることを示している。さらに、厳密な不確実性評価を通じて、予測された不確実性推定の信頼性を検証し、モデル予測の解釈可能性を高める。我々の発見は、ラベルノイズをモデル化し、EOに不確実性を定量化することの重要性を強調し、より正確で信頼性の高い、信頼できるMLソリューションへの道を開くものである。

要約(オリジナル)

Label noise poses a significant challenge in Earth Observation (EO), often degrading the performance and reliability of supervised Machine Learning (ML) models. Yet, given the critical nature of several EO applications, developing robust and trustworthy ML solutions is essential. In this study, we take a step in this direction by leveraging probabilistic ML to model input-dependent label noise and quantify data uncertainty in EO tasks, accounting for the unique noise sources inherent in the domain. We train uncertainty-aware probabilistic models across a broad range of high-impact EO applications-spanning diverse noise sources, input modalities, and ML configurations-and introduce a dedicated pipeline to assess their accuracy and reliability. Our experimental results show that the uncertainty-aware models consistently outperform the standard deterministic approaches across most datasets and evaluation metrics. Moreover, through rigorous uncertainty evaluation, we validate the reliability of the predicted uncertainty estimates, enhancing the interpretability of model predictions. Our findings emphasize the importance of modeling label noise and incorporating uncertainty quantification in EO, paving the way for more accurate, reliable, and trustworthy ML solutions in the field.

arxiv情報

著者 Spyros Kondylatos,Nikolaos Ioannis Bountos,Ioannis Prapas,Angelos Zavras,Gustau Camps-Valls,Ioannis Papoutsis
発行日 2025-04-04 14:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | Probabilistic Machine Learning for Noisy Labels in Earth Observation はコメントを受け付けていません

BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution

要約

超解像(SR)技術は、特に高解像度画像が不可欠でありながらハードウェアの制約によって制限されているシナリオにおいて、画質を向上させるために重要である。SRのための既存の拡散モデルは、ノイズ生成のために主にガウスモデルに依存しており、自然なシーンに固有の複雑で変化しやすいテクスチャを扱う場合には、しばしば不足する。これらの欠点に対処するために、我々はベイズ不確定性誘導拡散確率モデル(BUFF)を導入する。BUFFは、高解像度の不確実性マスクを生成するためにベイジアンネットワークを組み込むことによって、その特徴を際立たせている。これらのマスクは拡散プロセスをガイドし、文脈を認識し適応的な方法でノイズ強度を調整することを可能にする。この斬新なアプローチは、超解像画像の忠実度を元の高解像度画像に近づけるだけでなく、複雑なテクスチャーや微細なディテールを特徴とする領域におけるアーチファクトやぼやけを大幅に軽減する。このモデルは、複雑なノイズパターンに対して卓越した頑健性を示し、画像内のテクスチャやエッジの処理において優れた適応性を示す。視覚的な結果に裏付けされた実証的な証拠は、特に困難なシナリオにおけるモデルのロバスト性と、ぼやけなどのSRの一般的な問題への対処の有効性を示しています。DIV2Kデータセットで実施された実験評価では、BUFFはBSD100のSSIMにおいてベースラインと比較して+0.61という顕著な改善を達成し、従来の拡散アプローチを平均+0.20dB PSNRの追加利得で上回った。これらの結果は、SRの拡散プロセスを強化するベイズ手法の可能性を強調するものであり、この分野における将来の進歩に道を開くものです。

要約(オリジナル)

Super-resolution (SR) techniques are critical for enhancing image quality, particularly in scenarios where high-resolution imagery is essential yet limited by hardware constraints. Existing diffusion models for SR have relied predominantly on Gaussian models for noise generation, which often fall short when dealing with the complex and variable texture inherent in natural scenes. To address these deficiencies, we introduce the Bayesian Uncertainty Guided Diffusion Probabilistic Model (BUFF). BUFF distinguishes itself by incorporating a Bayesian network to generate high-resolution uncertainty masks. These masks guide the diffusion process, allowing for the adjustment of noise intensity in a manner that is both context-aware and adaptive. This novel approach not only enhances the fidelity of super-resolved images to their original high-resolution counterparts but also significantly mitigates artifacts and blurring in areas characterized by complex textures and fine details. The model demonstrates exceptional robustness against complex noise patterns and showcases superior adaptability in handling textures and edges within images. Empirical evidence, supported by visual results, illustrates the model’s robustness, especially in challenging scenarios, and its effectiveness in addressing common SR issues such as blurring. Experimental evaluations conducted on the DIV2K dataset reveal that BUFF achieves a notable improvement, with a +0.61 increase compared to baseline in SSIM on BSD100, surpassing traditional diffusion approaches by an average additional +0.20dB PSNR gain. These findings underscore the potential of Bayesian methods in enhancing diffusion processes for SR, paving the way for future advancements in the field.

arxiv情報

著者 Zihao He,Shengchuan Zhang,Runze Hu,Yunhang Shen,Yan Zhang
発行日 2025-04-04 14:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T45, cs.AI, cs.CV, I.2.10 | BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution はコメントを受け付けていません

The Change You Want To Detect: Semantic Change Detection In Earth Observation With Hybrid Data Generation

要約

超高解像度(VHR)画像に基づくスケールでの二時的変化検出は、地球モニタリングにとって極めて重要である。これまでのところ、この問題はあまり解決されていません。手法には大量の注釈付きデータ(セマンティック・ケース)が必要であるか、限られたデータセット(バイナリ・セットアップ)に限られています。ほとんどのアプローチは、時間的・空間的適応に必要な汎用性を示していない。アーキテクチャ設計の単純さと、現実的で包括的なデータセットでの事前学習である。合成データセットは重要な解決策であるが、それでも複雑で多様なシーンを扱うことはできない。この論文では、実際のVHR画像と塗りつぶした画像の両方を含む、大規模なハイブリッド意味的変化検出データセットを作成するための生成的パイプラインであるHySCDGを紹介する。HySCDGは意味的・空間的に導かれ、現実的な画像を生成し、包括的でハイブリッドな転移防止データセットFSC-180kを導く。我々はFSC-180kを5つの変化検出ケース(バイナリーとセマンティック)で評価した。実験により、我々のハイブリッドデータセットでの事前学習が大幅な性能向上をもたらし、全ての構成において完全合成データセットであるSyntheWorldを凌駕することが実証された。全てのコード、モデル、データはこちらから入手可能: https://yb23.github.io/projects/cywd/

要約(オリジナル)

Bi-temporal change detection at scale based on Very High Resolution (VHR) images is crucial for Earth monitoring. This remains poorly addressed so far: methods either require large volumes of annotated data (semantic case), or are limited to restricted datasets (binary set-ups). Most approaches do not exhibit the versatility required for temporal and spatial adaptation: simplicity in architecture design and pretraining on realistic and comprehensive datasets. Synthetic datasets are the key solution but still fail to handle complex and diverse scenes. In this paper, we present HySCDG a generative pipeline for creating a large hybrid semantic change detection dataset that contains both real VHR images and inpainted ones, along with land cover semantic map at both dates and the change map. Being semantically and spatially guided, HySCDG generates realistic images, leading to a comprehensive and hybrid transfer-proof dataset FSC-180k. We evaluate FSC-180k on five change detection cases (binary and semantic), from zero-shot to mixed and sequential training, and also under low data regime training. Experiments demonstrate that pretraining on our hybrid dataset leads to a significant performance boost, outperforming SyntheWorld, a fully synthetic dataset, in every configuration. All codes, models, and data are available here: https://yb23.github.io/projects/cywd/

arxiv情報

著者 Yanis Benidir,Nicolas Gonthier,Clement Mallet
発行日 2025-04-04 14:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | The Change You Want To Detect: Semantic Change Detection In Earth Observation With Hybrid Data Generation はコメントを受け付けていません

LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders

要約

本論文では、長尺映像表現のための自己教師付き学習フレームワークである、長尺映像マスク埋め込みオートエンコーダ(LV-MAE)を紹介する。我々のアプローチは、短いスパンと長いスパンの依存関係を2つの別々のタスクとして扱う。このような分離により、短時間の時空間プリミティブを最初に符号化し、次に連続するビデオセグメントにわたる長距離依存性を捕捉するために使用するという、より直感的なビデオ処理が可能になる。これを実現するために、我々は市販の先進的なマルチモーダルエンコーダを活用して、長い映像内の短いセグメントから表現を抽出し、その後、セグメント間の高レベルの相互作用を捕捉するマスク埋め込みオートエンコーダを事前学習する。LV-MAEは学習効率が高く、入力フレーム数の制約を緩和することで、より長いビデオの処理を可能にする。さらに、一般的に短い動画データセットで事前学習を行う既存の手法とは異なり、我々のアプローチでは、長い動画サンプル(例えば20分以上の動画クリップ)を用いて自己教師付き事前学習を行う。LV-MAE表現を用いることで、LVU、COIN、Breakfastの3つの長時間のビデオベンチマークにおいて、注意深いプロービングか線形プロービングのどちらかの単純な分類ヘッドを用いるだけで、最先端の結果を達成した。最後に、LV-MAEの事前学習を評価し、その再構成品質を可視化するために、短いビデオ表現のビデオ言語整列空間を活用し、ビデオテキスト検索を通してLV-MAEを監視する。

要約(オリジナル)

In this work, we introduce long-video masked-embedding autoencoders (LV-MAE), a self-supervised learning framework for long video representation. Our approach treats short- and long-span dependencies as two separate tasks. Such decoupling allows for a more intuitive video processing where short-span spatiotemporal primitives are first encoded and are then used to capture long-range dependencies across consecutive video segments. To achieve this, we leverage advanced off-the-shelf multimodal encoders to extract representations from short segments within the long video, followed by pre-training a masked-embedding autoencoder capturing high-level interactions across segments. LV-MAE is highly efficient to train and enables the processing of much longer videos by alleviating the constraint on the number of input frames. Furthermore, unlike existing methods that typically pre-train on short-video datasets, our approach offers self-supervised pre-training using long video samples (e.g., 20+ minutes video clips) at scale. Using LV-MAE representations, we achieve state-of-the-art results on three long-video benchmarks — LVU, COIN, and Breakfast — employing only a simple classification head for either attentive or linear probing. Finally, to assess LV-MAE pre-training and visualize its reconstruction quality, we leverage the video-language aligned space of short video representations to monitor LV-MAE through video-text retrieval.

arxiv情報

著者 Ilan Naiman,Emanuel Ben-Baruch,Oron Anschel,Alon Shoshan,Igor Kviatkovsky,Manoj Aggarwal,Gerard Medioni
発行日 2025-04-04 14:56:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders はコメントを受け付けていません

FADConv: A Frequency-Aware Dynamic Convolution for Farmland Non-agriculturalization Identification and Segmentation

要約

耕地の非農業化とは、耕地を森林、住宅地、建設地などの非農業的用途に転換することを指す。この現象は、耕地資源の喪失に直接つながるだけでなく、食料安全保障と農業の持続可能性に対する体系的な脅威となる。耕作地と非耕作地を正確に識別することは、この問題を検出し対処するために極めて重要である。従来のCNNは静的畳み込み層を採用しているが、動的畳み込みの研究では、注意メカニズムによって複数の畳み込みカーネルを適応的に重み付けすることで、精度を向上できることが実証されている。しかし、既存の動的畳み込み法では、注意の重み付けをグローバル平均プーリング(GAP)に依存しているため、情報損失に苦しみ、セグメンテーションの精度が制限される。本論文では、これらの限界に対処するために、周波数考慮ダイナミックコンボリューション(FADConv)と周波数アテンション(FAT)モジュールを提案する。ダイナミックコンボリューションの基礎構造を基に、周波数領域の特徴を捉え、それらを融合するために2次元離散コサイン変換(2D DCT)を統合することでFADConvを設計した。FATモジュールは、従来のGAP法に代わる高品質の注目重みを生成し、動的畳み込みカーネル間の組み合わせをより合理的にする。GIDとHi-CNAデータセットでの実験により、FADConvが最小限の計算オーバーヘッドでセグメンテーション精度を大幅に改善することが実証された。例えば、FADConvを用いたResNet18は、GIDの農地のセグメンテーションにおいて、F1スコアとIoUで1.9%と2.7%の増加を達成し、追加MAddsは58.87Mだけである。他のダイナミックコンボリューションアプローチと比較して、FADConvは農地セグメンテーションタスクにおいて優れた性能を示す。

要約(オリジナル)

Cropland non-agriculturalization refers to the conversion of arable land into non-agricultural uses such as forests, residential areas, and construction sites. This phenomenon not only directly leads to the loss of cropland resources but also poses systemic threats to food security and agricultural sustainability. Accurate identification of cropland and non-cropland areas is crucial for detecting and addressing this issue. Traditional CNNs employ static convolution layers, while dynamic convolution studies demonstrate that adaptively weighting multiple convolutional kernels through attention mechanisms can enhance accuracy. However, existing dynamic convolution methods relying on Global Average Pooling (GAP) for attention weight allocation suffer from information loss, limiting segmentation precision. This paper proposes Frequency-Aware Dynamic Convolution (FADConv) and a Frequency Attention (FAT) module to address these limitations. Building upon the foundational structure of dynamic convolution, we designed FADConv by integrating 2D Discrete Cosine Transform (2D DCT) to capture frequency domain features and fuse them. FAT module generates high-quality attention weights that replace the traditional GAP method,making the combination between dynamic convolution kernels more reasonable.Experiments on the GID and Hi-CNA datasets demonstrate that FADConv significantly improves segmentation accuracy with minimal computational overhead. For instance, ResNet18 with FADConv achieves 1.9% and 2.7% increases in F1-score and IoU for cropland segmentation on GID, with only 58.87M additional MAdds. Compared to other dynamic convolution approaches, FADConv exhibits superior performance in cropland segmentation tasks.

arxiv情報

著者 Tan Shu,Li Shen
発行日 2025-04-04 15:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FADConv: A Frequency-Aware Dynamic Convolution for Farmland Non-agriculturalization Identification and Segmentation はコメントを受け付けていません

RANa: Retrieval-Augmented Navigation

要約

大規模学習に基づくナビゲーションの方法は、一般的に各エピソードを新しい問題として扱う。このような未知の環境に対する汎化能力は非常に重要であるが、現実的な設定では、エージェントは以前のロボット操作中に収集された情報を利用する能力を持つべきであると主張する。我々は、同じ環境における過去のエピソードから収集されたデータベースを照会し、この追加的なコンテキスト情報を統合する方法を学習することができる、RLで訓練された新しい検索拡張エージェントを導入することにより、これに対処する。我々は、一般的なナビゲーションタスクのためのユニークなエージェントアーキテクチャを紹介し、ObjectNav、ImageNav、Instance-ImageNavで評価する。我々の検索とコンテキスト符号化手法はデータ駆動型であり、意味理解と幾何学的理解の両方に視覚基盤モデル(FM)を多用している。我々は、これらの設定のための新しいベンチマークを提案し、検索が、性能を大幅に向上させながら、タスクや環境間でゼロショット転送を可能にすることを示す。

要約(オリジナル)

Methods for navigation based on large-scale learning typically treat each episode as a new problem, where the agent is spawned with a clean memory in an unknown environment. While these generalization capabilities to an unknown environment are extremely important, we claim that, in a realistic setting, an agent should have the capacity of exploiting information collected during earlier robot operations. We address this by introducing a new retrieval-augmented agent, trained with RL, capable of querying a database collected from previous episodes in the same environment and learning how to integrate this additional context information. We introduce a unique agent architecture for the general navigation task, evaluated on ObjectNav, ImageNav and Instance-ImageNav. Our retrieval and context encoding methods are data-driven and heavily employ vision foundation models (FM) for both semantic and geometric understanding. We propose new benchmarks for these settings and we show that retrieval allows zero-shot transfer across tasks and environments while significantly improving performance.

arxiv情報

著者 Gianluca Monaci,Rafael S. Rezende,Romain Deffayet,Gabriela Csurka,Guillaume Bono,Hervé Déjean,Stéphane Clinchant,Christian Wolf
発行日 2025-04-04 15:22:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.IR, cs.RO | RANa: Retrieval-Augmented Navigation はコメントを受け付けていません

Revisiting MAE pre-training for 3D medical image segmentation

要約

自己教師あり学習(SSL)は、ラベル付きデータの不足に悩む様々な下流アプリケーションのために、膨大で未開発の臨床データセットの可能性を解き放つエキサイティングな機会を提供する。SSLは自然言語処理やコンピュータビジョンなどの分野に革命をもたらしたが、3D医用画像コンピューティングへの導入は3つの重要な落とし穴によって制限されてきた:すなわち、少ない事前学習データセットサイズ、3D医用画像解析に不適切なアーキテクチャ、不十分な評価方法である。本論文では、i) 39kの3D脳MRIボリュームからなる大規模データセットを活用し、ii) 最先端のnnU-Netフレームワーク内でResidual Encoder U-Netアーキテクチャを使用することで、これらの問題に対処する。 iii) 5つの開発データセットと8つのテスト脳MRIセグメンテーションデータセットを組み込んだ堅牢な開発フレームワークにより、性能駆動型の設計決定が可能となり、3D CNNのためのMasked Auto Encoders (MAE)の単純な概念を最適化することができた。結果として得られたモデルは、これまでのSSL手法を凌駕するだけでなく、強力なnnU-Netベースラインを平均約3ダイスポイント上回り、新たな最先端を打ち立てた。我々のコードとモデルはこちらで公開されている。

要約(オリジナル)

Self-Supervised Learning (SSL) presents an exciting opportunity to unlock the potential of vast, untapped clinical datasets, for various downstream applications that suffer from the scarcity of labeled data. While SSL has revolutionized fields like natural language processing and computer vision, its adoption in 3D medical image computing has been limited by three key pitfalls: Small pre-training dataset sizes, architectures inadequate for 3D medical image analysis, and insufficient evaluation practices. In this paper, we address these issues by i) leveraging a large-scale dataset of 39k 3D brain MRI volumes and ii) using a Residual Encoder U-Net architecture within the state-of-the-art nnU-Net framework. iii) A robust development framework, incorporating 5 development and 8 testing brain MRI segmentation datasets, allowed performance-driven design decisions to optimize the simple concept of Masked Auto Encoders (MAEs) for 3D CNNs. The resulting model not only surpasses previous SSL methods but also outperforms the strong nnU-Net baseline by an average of approximately 3 Dice points setting a new state-of-the-art. Our code and models are made available here.

arxiv情報

著者 Tassilo Wald,Constantin Ulrich,Stanislav Lukyanenko,Andrei Goncharov,Alberto Paderno,Maximilian Miller,Leander Maerkisch,Paul F. Jäger,Klaus Maier-Hein
発行日 2025-04-04 15:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | Revisiting MAE pre-training for 3D medical image segmentation はコメントを受け付けていません

DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks

要約

本論文では、様々な時間マッチングに基づく下流タスク、すなわち、ビデオオブジェクトトラッキング(VOT)やビデオオブジェクトセグメンテーション(VOS)を含むオブジェクトレベルトラッキングタスク、自己教師あり視覚対応学習、オプティカルフロー推定や長期点追跡を含む高密度追跡タスク、3D点群追跡のためのマスクオートエンコーダ(MAE)ビデオ事前学習について研究する。具体的には、我々の研究は、様々な下流トラッキングタスクにおいて、時間的マッチング能力を向上させる一般的な表現を提供することを探求している。これを達成するために、我々はまず、動画中のフレームパッチをランダムにマスクし、フレームピクセルを再構成するMAEの単純な拡張が、フレーム再構成のための時間的関係を無視する一方で、空間的な手がかりに大きく依存しており、その結果、最適な時間的マッチング表現ではないことを発見する。これを緩和するために、我々はDropMAEを提案する。DropMAEは適応的にフレーム再構成において空間的注意のドロップアウトを行い、動画における時間的対応学習を促進する。1)DropMAEは強く効率的な時間マッチング学習器であり、マッチングベースのタスクにおいて、ImageNetベースのMAEよりも2倍速い事前学習速度で、より良い微調整結果を達成する。2) DropMAEは様々なトラッキングタスク、すなわち、VOTやVOSを含むオブジェクトレベルのマッチングタスク、オプティカルフロー推定やTAP(Tracking Any Point)を含む高密度トラッキングタスク、さらには点群データの異なるモダリティにおける3Dトラッキングに有効である。そして、我々の事前学習されたDropMAEモデルは、これらのViTベースのトラッカーに直接ロードすることができ、更なる修正を加えることなく、微調整を行うことができます。6つの下流追跡タスクに対する実験により、多様な追跡タスクに対する一般的な事前学習済み表現としてのDropMAEの有効性が実証されました。

要約(オリジナル)

This paper studies masked autoencoder (MAE) video pre-training for various temporal matching-based downstream tasks, i.e., object-level tracking tasks including video object tracking (VOT) and video object segmentation (VOS), self-supervised visual correspondence learning, dense tracking tasks including optical flow estimation and long-term point tracking, and 3D point cloud tracking. Specifically, our work explores to provide a general representation to boost the temporal matching ability in various downstream tracking tasks. To achieve this, we firstly find that a simple extension of MAE, which randomly masks out frame patches in videos and reconstruct the frame pixels, heavily relies on spatial cues while ignoring temporal relations for frame reconstruction, thus leading to sub-optimal temporal matching representations. To alleviate this, we propose DropMAE, which adaptively performs spatial-attention dropout in the frame reconstruction to facilitate temporal correspondence learning in videos. We obtain several important findings with DropMAE: 1) DropMAE is a strong and efficient temporal matching learner, which achieves better fine-tuning results on matching-based tasks than the ImageNet-based MAE with 2x faster pre-training speed. 2) DropMAE is effective for different tracking tasks, i.e., object-level matching tasks including VOT and VOS, dense tracking tasks including optical flow estimation and tracking any point (TAP), and even 3D tracking in the different modality of point cloud data. Since none exists, we build ViT-based trackers for different downstream tracking tasks, and our pre-trained DropMAE model can be directly loaded in these ViT-based trackers for fine-tuning without further modifications. Experiments on 6 downstream tracking tasks demonstrate the effectiveness of DropMAE as a general pre-trained representation for diverse tracking tasks.

arxiv情報

著者 Qiangqiang Wu,Tianyu Yang,Ziquan Liu,Wei Lin,Baoyuan Wu,Antoni B. Chan
発行日 2025-04-04 15:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks はコメントを受け付けていません

Agentic Knowledgeable Self-awareness

要約

大規模言語モデル(LLM)は、様々なエージェント計画タスクにおいてかなりの性能を達成している。しかしながら、従来のエージェント計画アプローチは、ゴールド軌道、外部フィードバック、およびドメイン知識をエージェントモデルに無差別に注入する「洪水灌漑」手法を採用している。このやり方は、意思決定中の状況的自己認識の基本的な人間の認知原理(意思決定中に状況的要求を動的に評価し、戦略的にリソースを使用する能力)を見落としている。我々は、このギャップを解決するために、エージェント的知識自己認識を提案する。これは、LLMベースのエージェントが自律的に知識利用を制御することを可能にする新しいパラダイムである。具体的には、人間のような知識自己認識を持つエージェントを適用するデータ中心のアプローチであるKnowSelfを提案する。具体的には、学習データを収集するために、エージェントの自己探索軌跡上に特別なトークンをマークするヒューリスティックな状況判断基準を考案する。2段階の訓練プロセスにより、エージェントモデルは特定の特別なトークンを生成することで異なる状況を切り替えることができ、最小限のコストで最適な計画効果を達成することができる。我々の実験は、KnowSelfが外部知識の使用を最小限に抑えながら、様々なタスクやモデルにおいて様々な強力なベースラインを凌駕できることを実証している。コードはhttps://github.com/zjunlp/KnowSelf。

要約(オリジナル)

Large Language Models (LLMs) have achieved considerable performance across various agentic planning tasks. However, traditional agent planning approaches adopt a ‘flood irrigation’ methodology that indiscriminately injects gold trajectories, external feedback, and domain knowledge into agent models. This practice overlooks the fundamental human cognitive principle of situational self-awareness during decision-making-the ability to dynamically assess situational demands and strategically employ resources during decision-making. We propose agentic knowledgeable self-awareness to address this gap, a novel paradigm enabling LLM-based agents to autonomously regulate knowledge utilization. Specifically, we propose KnowSelf, a data-centric approach that applies agents with knowledgeable self-awareness like humans. Concretely, we devise a heuristic situation judgement criterion to mark special tokens on the agent’s self-explored trajectories for collecting training data. Through a two-stage training process, the agent model can switch between different situations by generating specific special tokens, achieving optimal planning effects with minimal costs. Our experiments demonstrate that KnowSelf can outperform various strong baselines on different tasks and models with minimal use of external knowledge. Code is available at https://github.com/zjunlp/KnowSelf.

arxiv情報

著者 Shuofei Qiao,Zhisong Qiu,Baochang Ren,Xiaobin Wang,Xiangyuan Ru,Ningyu Zhang,Xiang Chen,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2025-04-04 16:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA | Agentic Knowledgeable Self-awareness はコメントを受け付けていません