LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction

要約

正確で信頼性の高い空間的情報とモーション情報は、自律運転システムで極めて重要な役割を果たします。
ただし、オブジェクトレベルの知覚モデルは、オープンシナリオカテゴリの処理に苦労しており、正確な内因性ジオメトリがありません。
一方、占有ベースのクラスに依存しない方法は、シーンの表現に優れていますが、物理学の一貫性を確保し、交通参加者間の相互作用の重要性を無視し、正確で信頼できる動きを学習するモデルの能力を妨げます。
このペーパーでは、インスタンス機能をバードアイビュー(BEV)スペースに組み込んだLego-Motionという名前のクラスに依存しないモーション予測タスクの新しい占有率モデリングフレームワークを紹介します。
私たちのモデルには、(1)BEVエンコーダー、(2)相互作用が整合されたインスタンスエンコーダー、(3)インスタンスが強化されたBEVエンコーダーを含み、モデル内の相互作用関係と物理学の一貫性の両方を改善し、それにより環境のより正確で堅牢な理解を確保します。
Nuscenes Datasetでの広範な実験は、この方法が最新のパフォーマンスを達成し、既存のアプローチを上回ることを示しています。
さらに、私たちのフレームワークの有効性は、高度なFMCW Lidarベンチマークで検証され、その実用的な適用性と一般化機能を紹介します。
コードは、さらなる研究を促進するために公開されます。

要約(オリジナル)

Accurate and reliable spatial and motion information plays a pivotal role in autonomous driving systems. However, object-level perception models struggle with handling open scenario categories and lack precise intrinsic geometry. On the other hand, occupancy-based class-agnostic methods excel in representing scenes but fail to ensure physics consistency and ignore the importance of interactions between traffic participants, hindering the model’s ability to learn accurate and reliable motion. In this paper, we introduce a novel occupancy-instance modeling framework for class-agnostic motion prediction tasks, named LEGO-Motion, which incorporates instance features into Bird’s Eye View (BEV) space. Our model comprises (1) a BEV encoder, (2) an Interaction-Augmented Instance Encoder, and (3) an Instance-Enhanced BEV Encoder, improving both interaction relationships and physics consistency within the model, thereby ensuring a more accurate and robust understanding of the environment. Extensive experiments on the nuScenes dataset demonstrate that our method achieves state-of-the-art performance, outperforming existing approaches. Furthermore, the effectiveness of our framework is validated on the advanced FMCW LiDAR benchmark, showcasing its practical applicability and generalization capabilities. The code will be made publicly available to facilitate further research.

arxiv情報

著者 Kangan Qian,Jinyu Miao,Ziang Luo,Zheng Fu,and Jinchen Li,Yining Shi,Yunlong Wang,Kun Jiang,Mengmeng Yang,Diange Yang
発行日 2025-03-10 14:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction はコメントを受け付けていません

Skelite: Compact Neural Networks for Efficient Iterative Skeletonization

要約

スケルトン化は、ジオメトリとトポロジーをコンパクトにエンコードする画像から薄い表現を抽出します。
これらの表現は、船舶セグメンテーションなどの医療タスクを支援し、曲線構造の接続性を維持するための重要なトポロジカルな事前になっています。
既存の互換性のあるスケルトン化アルゴリズムは重要なトレードオフに直面しています。形態ベースのアプローチは計算効率が高いが、頻繁に破損する傾向がありますが、トポロジーを提供する方法にはかなりの計算リソースが必要です。
学習可能なコンポーネントで反復的な骨格化アルゴリズムをトレーニングするための新しいフレームワークを提案します。
このフレームワークは、合成データ、タスク固有の増強、および完全に微分反復的なアルゴリズムで薄く接続された骨格を生成するコンパクトなニューラルネットワークを学ぶためのモデル蒸留戦略を活用します。
私たちの方法は、高精度を維持し、微調整せずに新しいドメインに効果的に一般化しながら、トポロジ制約のアルゴリズムよりも100倍のスピードアップを示しています。
2Dおよび3Dタスクでのベンチマークとダウンストリーム検証は、その計算効率と現実世界の適用性を示しています

要約(オリジナル)

Skeletonization extracts thin representations from images that compactly encode their geometry and topology. These representations have become an important topological prior for preserving connectivity in curvilinear structures, aiding medical tasks like vessel segmentation. Existing compatible skeletonization algorithms face significant trade-offs: morphology-based approaches are computationally efficient but prone to frequent breakages, while topology-preserving methods require substantial computational resources. We propose a novel framework for training iterative skeletonization algorithms with a learnable component. The framework leverages synthetic data, task-specific augmentation, and a model distillation strategy to learn compact neural networks that produce thin, connected skeletons with a fully differentiable iterative algorithm. Our method demonstrates a 100 times speedup over topology-constrained algorithms while maintaining high accuracy and generalizing effectively to new domains without fine-tuning. Benchmarking and downstream validation in 2D and 3D tasks demonstrate its computational efficiency and real-world applicability

arxiv情報

著者 Luis D. Reyes Vargas,Martin J. Menten,Johannes C. Paetzold,Nassir Navab,Mohammad Farid Azampour
発行日 2025-03-10 14:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Skelite: Compact Neural Networks for Efficient Iterative Skeletonization はコメントを受け付けていません

HGO-YOLO: Advancing Anomaly Behavior Detection with Hierarchical Features and Lightweight Optimized Detection

要約

正確でリアルタイムのオブジェクトの検出は、特にハードウェアの制限によって制約されるシナリオでは、検出性能を向上させるために精度と速度のバランスをとるシナリオで重要です。
この研究では、HGO-YOLOと呼ばれるモデルを提案し、HGNETV2アーキテクチャをYolov8に統合します。
この組み合わせは、受容フィールドを拡張し、幅広い機能をキャプチャし、GhostConvを通じてモデルの複雑さを簡素化します。
パラメーター共有を利用して検出ヘッドを効果的に構築する軽量検出ヘッドであるOpticOnvDetectを導入しました。
評価の結果は、提案されたアルゴリズムが87.4%のMAP@0.5と81.1%のリコール率を達成し、モデルサイズは4.6 MBのみ、CPUで56 FPSのフレームレートを達成していることを示しています。
HGO-Yoloは精度を3.0%向上させるだけでなく、計算負荷を51.69%(8.9 GFLOPSから4.3 GFLOPSに)減少させ、フレームレートを1.7倍に増加させます。
さらに、Raspberry PI4およびNvidiaプラットフォームでリアルタイムテストが実施されました。
これらの結果は、HGOヨーロモデルが異常な行動検出において優れた性能を示していることを示しています。

要約(オリジナル)

Accurate and real-time object detection is crucial for anomaly behavior detection, especially in scenarios constrained by hardware limitations, where balancing accuracy and speed is essential for enhancing detection performance. This study proposes a model called HGO-YOLO, which integrates the HGNetv2 architecture into YOLOv8. This combination expands the receptive field and captures a wider range of features while simplifying model complexity through GhostConv. We introduced a lightweight detection head, OptiConvDetect, which utilizes parameter sharing to construct the detection head effectively. Evaluation results show that the proposed algorithm achieves a mAP@0.5 of 87.4% and a recall rate of 81.1%, with a model size of only 4.6 MB and a frame rate of 56 FPS on the CPU. HGO-YOLO not only improves accuracy by 3.0% but also reduces computational load by 51.69% (from 8.9 GFLOPs to 4.3 GFLOPs), while increasing the frame rate by a factor of 1.7. Additionally, real-time tests were conducted on Raspberry Pi4 and NVIDIA platforms. These results indicate that the HGO-YOLO model demonstrates superior performance in anomaly behavior detection.

arxiv情報

著者 Qizhi Zheng,Zhongze Luo,Meiyan Guo,Xinzhu Wang,Renqimuge Wu,Qiu Meng,Guanghui Dong
発行日 2025-03-10 14:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HGO-YOLO: Advancing Anomaly Behavior Detection with Hierarchical Features and Lightweight Optimized Detection はコメントを受け付けていません

Probabilistic Segmentation for Robust Field of View Estimation

要約

センシングと知覚への攻撃は、自律車両(AVS)の安全な展開を脅かします。
セキュリティ認識センサー融合は、脅威を軽減するのに役立ちますが、自律性が評価されていない正確な視野(FOV)推定が必要です。
このギャップに対処するために、古典的なコンピューターグラフィックスアルゴリズムを適応させて、最初の自律性に関連するFOV推定器を開発し、グラウンドトゥルースFOVラベルを使用して最初のデータセットを作成します。
残念ながら、これらのアプローチ自体がセンシングへの攻撃に対して非常に脆弱であることがわかります。
攻撃に対するFOV推定の堅牢性を改善するために、FOV機能をキャプチャし、モンテカルロドロップアウト(MCD)を不確実性の定量化のために統合し、信頼マップで異常検出を実行する学習ベースのセグメンテーションモデルを提案します。
包括的な評価を通じて、環境全体の抵抗と強力な一般化を攻撃することを説明します。
建築貿易研究は、複数のアプリケーションでのリアルタイムの展開にモデルが実行可能であることを示しています。

要約(オリジナル)

Attacks on sensing and perception threaten the safe deployment of autonomous vehicles (AVs). Security-aware sensor fusion helps mitigate threats but requires accurate field of view (FOV) estimation which has not been evaluated autonomy. To address this gap, we adapt classical computer graphics algorithms to develop the first autonomy-relevant FOV estimators and create the first datasets with ground truth FOV labels. Unfortunately, we find that these approaches are themselves highly vulnerable to attacks on sensing. To improve robustness of FOV estimation against attacks, we propose a learning-based segmentation model that captures FOV features, integrates Monte Carlo dropout (MCD) for uncertainty quantification, and performs anomaly detection on confidence maps. We illustrate through comprehensive evaluations attack resistance and strong generalization across environments. Architecture trade studies demonstrate the model is feasible for real-time deployment in multiple applications.

arxiv情報

著者 R. Spencer Hallyburton,David Hunt,Yiwei He,Judy He,Miroslav Pajic
発行日 2025-03-10 14:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Probabilistic Segmentation for Robust Field of View Estimation はコメントを受け付けていません

TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models

要約

テキストから画像への拡散モデルの最近の進歩により、フォトリアリスティックな画像生成が可能になりますが、NSFW画像などの悪意のあるコンテンツを生成するリスクもあります。
リスクを緩和するために、特定の概念を学ぶためにモデルを促進するために概念消去方法が研究されています。
ただし、現在の研究は、モデルの通常の生成能力を維持しながら、プロンプト(たとえば、比phor的な表現や敵対的なプロンプトなど)に暗黙的に埋め込まれた悪意のある概念を完全に消去するのに苦労しています。
この課題に対処するために、我々の研究はTRCEを提案し、2段階の概念消去戦略を使用して、信頼できる消去と知識の保存の間の効果的なトレードオフを達成します。
第一に、TRCEは、テキストプロンプトに暗黙的に埋め込まれた悪意のあるセマンティクスを消去することから始めます。
重要なマッピング目標(つまり、[eot]埋め込み)を識別することにより、クロスアテンションレイヤーを最適化して、悪意のあるプロンプトを文脈的に類似したプロンプトにマッピングしますが、安全な概念を使用します。
このステップにより、モデルが除去プロセス中の悪意のあるセマンティクスの影響を過度に影響することを防ぎます。
これに続いて、拡散モデルのサンプリング軌跡の決定論的特性を考慮すると、TRCEは、対照的な学習を通じて安全な方向から安全でない方向から離れて、早期の除去予測をさらに導き、悪意のあるコンテンツの生成をさらに回避します。
最後に、複数の悪意のある概念の消去ベンチマークでTRCEの包括的な評価を実施します。結果は、モデルの元の生成能力をよりよく維持しながら、悪意のある概念の消去における有効性を示しています。
このコードは、http://github.com/ddgoodgood/trceで入手できます。
注意:このホワイトペーパーには、攻撃資料を含む可能性のあるモデル生成コンテンツが含まれています。

要約(オリジナル)

Recent advances in text-to-image diffusion models enable photorealistic image generation, but they also risk producing malicious content, such as NSFW images. To mitigate risk, concept erasure methods are studied to facilitate the model to unlearn specific concepts. However, current studies struggle to fully erase malicious concepts implicitly embedded in prompts (e.g., metaphorical expressions or adversarial prompts) while preserving the model’s normal generation capability. To address this challenge, our study proposes TRCE, using a two-stage concept erasure strategy to achieve an effective trade-off between reliable erasure and knowledge preservation. Firstly, TRCE starts by erasing the malicious semantics implicitly embedded in textual prompts. By identifying a critical mapping objective(i.e., the [EoT] embedding), we optimize the cross-attention layers to map malicious prompts to contextually similar prompts but with safe concepts. This step prevents the model from being overly influenced by malicious semantics during the denoising process. Following this, considering the deterministic properties of the sampling trajectory of the diffusion model, TRCE further steers the early denoising prediction toward the safe direction and away from the unsafe one through contrastive learning, thus further avoiding the generation of malicious content. Finally, we conduct comprehensive evaluations of TRCE on multiple malicious concept erasure benchmarks, and the results demonstrate its effectiveness in erasing malicious concepts while better preserving the model’s original generation ability. The code is available at: http://github.com/ddgoodgood/TRCE. CAUTION: This paper includes model-generated content that may contain offensive material.

arxiv情報

著者 Ruidong Chen,Honglin Guo,Lanjun Wang,Chenyu Zhang,Weizhi Nie,An-An Liu
発行日 2025-03-10 14:37:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models はコメントを受け付けていません

PersonaBooth: Personalized Text-to-Motion Generation

要約

このホワイトペーパーでは、モーションパーソナライズを紹介します。これは、ペルソナを含むいくつかの基本的な動きを使用して、テキストの説明に合わせたパーソナライズされた動きを生成する新しいタスクです。
この新しいタスクをサポートするために、複数のアクターのユニークなペルソナを捉えるPermo(PersonAmotion)と呼ばれる新しい大規模なモーションデータセットを紹介します。
また、PersonAboothと呼ばれる事前に抑制された運動拡散モデルのマルチモーダル微調整方法も提案します。
Personaboothは、2つの主な課題に対処します。i)ペルソナ中心のPermoデータセットと、ペルソナ固有のデータを欠いている前削除データセットとの間の大幅な分布ギャップ、ii)モーションから一貫したペルソナをキャプチャする難しさは、コンテンツが異なります(アクションタイプ)。
データセットの分布ギャップに取り組むために、ペルソナトークンを導入して、新しいペルソナ機能を受け入れ、フィネチング中のテキストとビジュアルの両方にマルチモーダル適応を実行します。
一貫したペルソナをキャプチャするために、同じペルソナを持つサンプル間の凝固内を強化するための対照的な学習手法を組み込みます。
さらに、複数の入力モーションからのペルソナキューの統合を最大化するために、コンテキスト認識融合メカニズムを導入します。
Personaboothは、最先端のモーションスタイル転送方法を上回り、モーションパーソナライズのための新しいベンチマークを確立します。

要約(オリジナル)

This paper introduces Motion Personalization, a new task that generates personalized motions aligned with text descriptions using several basic motions containing Persona. To support this novel task, we introduce a new large-scale motion dataset called PerMo (PersonaMotion), which captures the unique personas of multiple actors. We also propose a multi-modal finetuning method of a pretrained motion diffusion model called PersonaBooth. PersonaBooth addresses two main challenges: i) A significant distribution gap between the persona-focused PerMo dataset and the pretraining datasets, which lack persona-specific data, and ii) the difficulty of capturing a consistent persona from the motions vary in content (action type). To tackle the dataset distribution gap, we introduce a persona token to accept new persona features and perform multi-modal adaptation for both text and visuals during finetuning. To capture a consistent persona, we incorporate a contrastive learning technique to enhance intra-cohesion among samples with the same persona. Furthermore, we introduce a context-aware fusion mechanism to maximize the integration of persona cues from multiple input motions. PersonaBooth outperforms state-of-the-art motion style transfer methods, establishing a new benchmark for motion personalization.

arxiv情報

著者 Boeun Kim,Hea In Jeong,JungHoon Sung,Yihua Cheng,Jeongmin Lee,Ju Yong Chang,Sang-Il Choi,Younggeun Choi,Saim Shin,Jungho Kim,Hyung Jin Chang
発行日 2025-03-10 14:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PersonaBooth: Personalized Text-to-Motion Generation はコメントを受け付けていません

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

要約

大規模なテキストからイメージ(T2I)拡散モデルから概念を消去することは、著作権侵害、攻撃的な内容、プライバシー違反に対する懸念が高まっているため、ますます重要になっています。
ただし、既存の方法では、固有の最適化制限のために、非ターゲット概念(つまり、以前)に費用のかかる微調整または劣化の画質が必要です。
この論文では、スケーラブル、正確、効率的な消去のためにヌル空間制約を活用するモデル編集ベースの概念消去アプローチである速度を紹介します。
具体的には、速度は影響ベースの事前フィルター(IPF)を組み込み、消去中に最も影響を受けた非ターゲット概念を保持し、以前のカバレッジを拡大してセマンティックな一貫性を維持しながら、以前のカバレッジを拡大し、不変の平等制約(IEC)を拡大し、T2I生成プロセス中に明示的に維持することによりモデル編集を正規化します。
複数の概念の消去タスクにわたる広範な評価は、速度が事前の保存で既存の方法を一貫して優先しながら、効率的で忠実度の概念の消去を達成し、わずか5秒以内に100の概念を正常に削除することを示しています。
私たちのコードとモデルは、https://github.com/ouxiang-li/speedで入手できます。

要約(オリジナル)

Erasing concepts from large-scale text-to-image (T2I) diffusion models has become increasingly crucial due to the growing concerns over copyright infringement, offensive content, and privacy violations. However, existing methods either require costly fine-tuning or degrade image quality for non-target concepts (i.e., prior) due to inherent optimization limitations. In this paper, we introduce SPEED, a model editing-based concept erasure approach that leverages null-space constraints for scalable, precise, and efficient erasure. Specifically, SPEED incorporates Influence-based Prior Filtering (IPF) to retain the most affected non-target concepts during erasing, Directed Prior Augmentation (DPA) to expand prior coverage while maintaining semantic consistency, and Invariant Equality Constraints (IEC) to regularize model editing by explicitly preserving key invariants during the T2I generation process. Extensive evaluations across multiple concept erasure tasks demonstrate that SPEED consistently outperforms existing methods in prior preservation while achieving efficient and high-fidelity concept erasure, successfully removing 100 concepts within just 5 seconds. Our code and models are available at: https://github.com/Ouxiang-Li/SPEED.

arxiv情報

著者 Ouxiang Li,Yuan Wang,Xinting Hu,Houcheng Jiang,Tao Liang,Yanbin Hao,Guojun Ma,Fuli Feng
発行日 2025-03-10 14:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models はコメントを受け付けていません

Quantifying the Limits of Segmentation Foundation Models: Modeling Challenges in Segmenting Tree-Like and Low-Contrast Objects

要約

画像セグメンテーションファンデーションモデル(SFMS)のようなセグメントAnyny Anything Model(SAM)は、多様なドメイン全体で印象的なゼロショットとインタラクティブセグメンテーションを達成しました。
しかし、彼らは、特定の構造、特に密集した樹木のような形態と周囲のテクスチャのコントラストが低い構造を持つオブジェクトをセグメント化するのに苦労しています。
これらの障害モードは、実際のアプリケーションにおけるSFMの制限を理解するために重要です。
この問題を体系的に研究するために、オブジェクトの樹木のように定量化された解釈可能なメトリックを導入します。
慎重に制御された合成実験と実世界のデータセットでは、SFMのパフォーマンス(SAM、SAM 2、HQ-SAMなど)がこれらの要因と顕著に相関することを示しています。
これらの障害を「テクスチャーの混乱」にリンクします。モデルでは、モデルがローカル構造をグローバルなテクスチャと誤って解釈し、オブジェクトを同様の背景から区別することを困難にします。
特に、ターゲットを絞った微調整はこの問題を解決できず、基本的な制限を示しています。
私たちの研究は、挑戦的な構造に対するSFMの動作をモデル化するための最初の定量的枠組みを提供し、セグメンテーション機能に関する解釈可能な洞察を提供します。

要約(オリジナル)

Image segmentation foundation models (SFMs) like Segment Anything Model (SAM) have achieved impressive zero-shot and interactive segmentation across diverse domains. However, they struggle to segment objects with certain structures, particularly those with dense, tree-like morphology and low textural contrast from their surroundings. These failure modes are crucial for understanding the limitations of SFMs in real-world applications. To systematically study this issue, we introduce interpretable metrics quantifying object tree-likeness and textural separability. On carefully controlled synthetic experiments and real-world datasets, we show that SFM performance (e.g., SAM, SAM 2, HQ-SAM) noticeably correlates with these factors. We link these failures to ‘textural confusion’, where models misinterpret local structure as global texture, causing over-segmentation or difficulty distinguishing objects from similar backgrounds. Notably, targeted fine-tuning fails to resolve this issue, indicating a fundamental limitation. Our study provides the first quantitative framework for modeling the behavior of SFMs on challenging structures, offering interpretable insights into their segmentation capabilities.

arxiv情報

著者 Yixin Zhang,Nicholas Konz,Kevin Kramer,Maciej A. Mazurowski
発行日 2025-03-10 14:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Quantifying the Limits of Segmentation Foundation Models: Modeling Challenges in Segmenting Tree-Like and Low-Contrast Objects はコメントを受け付けていません

Brain Inspired Adaptive Memory Dual-Net for Few-Shot Image Classification

要約

少数のショット画像分類は、実際のシナリオでの幅広いアプリケーションの一般的な研究トピックとなっていますが、単一の画像レベルの注釈によって引き起こされる監督崩壊の問題は依然として大きな課題です。
既存の方法は、関連するローカル機能を見つけて調整することにより、この問題に取り組むことを目的としています。
ただし、現実世界の画像のクラス内の高い変動性は、少数のショット設定の下で意味的に関連するローカル地域を見つける上で重要な課題をもたらします。
限られた例からのセマンティック機能を迅速にキャプチャして統合することに優れている人間の補完的な学習システムからインスピレーションを得て、一般化を最適化したシステム統合適応メモリデュアルネットワーク、詐欺ネットを提案します。
このアプローチでは、補完的な学習システムのシステムの統合を適応的なメモリモジュールでシミュレートし、少ないショットシナリオで意味のある機能を識別することの難しさに成功します。
具体的には、各カテゴリの構造化された表現を統合する海馬ネオコルテックスデュアルネットワークを構築します。その後、新皮質内の長期記憶の一般化最適化原理に従って、構造化された表現が保存され、適応的に調節されます。
ベンチマークデータセットでの広範な実験は、提案されたモデルが最先端のパフォーマンスを達成したことを示しています。

要約(オリジナル)

Few-shot image classification has become a popular research topic for its wide application in real-world scenarios, however the problem of supervision collapse induced by single image-level annotation remains a major challenge. Existing methods aim to tackle this problem by locating and aligning relevant local features. However, the high intra-class variability in real-world images poses significant challenges in locating semantically relevant local regions under few-shot settings. Drawing inspiration from the human’s complementary learning system, which excels at rapidly capturing and integrating semantic features from limited examples, we propose the generalization-optimized Systems Consolidation Adaptive Memory Dual-Network, SCAM-Net. This approach simulates the systems consolidation of complementary learning system with an adaptive memory module, which successfully addresses the difficulty of identifying meaningful features in few-shot scenarios. Specifically, we construct a Hippocampus-Neocortex dual-network that consolidates structured representation of each category, the structured representation is then stored and adaptively regulated following the generalization optimization principle in a long-term memory inside Neocortex. Extensive experiments on benchmark datasets show that the proposed model has achieved state-of-the-art performance.

arxiv情報

著者 Kexin Di,Xiuxing Li,Yuyang Han,Ziyu Li,Qing Li,Xia Wu
発行日 2025-03-10 14:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Brain Inspired Adaptive Memory Dual-Net for Few-Shot Image Classification はコメントを受け付けていません

Keeping Representation Similarity in Finetuning for Medical Image Analysis

要約

大規模な自然な画像で前提とされている基礎モデルは、微調整を通じて医療画像分析に適応するために広く使用されています。
これは、主に、下流のタスクで再加盟することができる、普遍的で堅牢で一般化可能な機能をキャプチャする前提条件の表現に起因しています。
ただし、これらの表現は、後に微調整中に徐々に消滅することがわかり、基礎モデルの元の能力、例えば一般化可能性の分解を伴います。
この論文では、我々は、未来の表現は、下流のタスクに効果的に適応しながら、十分に保存できると主張します。
これは、類似性の不変性に基づいて学習可能な直交マニホールドを制約することにより、前提条件と微調合された表現の間の距離を最小限に抑える新しい微調整法Repsimを提案することで研究します。
標準的な微調整方法、たとえば完全な微調整と比較して、私たちの方法は、競争の精度を維持しながら表現の類似性を30%以上改善し、5つの医療画像分類データセットでシャープネスを42%削減します。
コードがリリースされます。

要約(オリジナル)

Foundation models pretrained on large-scale natural images have been widely used to adapt to medical image analysis through finetuning. This is largely attributed to pretrained representations capturing universal, robust, and generalizable features, which can be reutilized by downstream tasks. However, these representations are later found to gradually vanish during finetuning, accompanied by a degradation of foundation model’s original abilities, e.g., generalizability. In this paper, we argue that pretrained representations can be well preserved while still effectively adapting to downstream tasks. We study this by proposing a new finetuning method RepSim, which minimizes the distance between pretrained and finetuned representations via constraining learnable orthogonal manifold based on similarity invariance. Compared to standard finetuning methods, e.g., full finetuning, our method improves representation similarity by over 30% while maintaining competitive accuracy, and reduces sharpness by 42% across five medical image classification datasets. The code will be released.

arxiv情報

著者 Wenqiang Zu,Shenghao Xie,Hao Chen,Yiming Liang,Lei Ma
発行日 2025-03-10 14:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Keeping Representation Similarity in Finetuning for Medical Image Analysis はコメントを受け付けていません