Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons

要約

スパイクニューラルネットワーク(SNNS)は、生物学的神経原理を模倣することにより、人工ニューラルネットワーク(ANN)のよりエネルギー効率の高い代替品を提供し、大規模なニューラルモデルの増加するエネルギー需要を軽減するための有望なアプローチとして確立します。
ただし、SNNの機能を完全に活用すると、個別の信号処理と時間的ダイナミクスがあるため、依然として困難なままです。
ANN-SNNの変換は実用的なアプローチとして浮上しており、SNNが複雑な機械学習タスクで競争力のあるパフォーマンスを達成できるようになりました。
この作業では、SNN層全体のランダムスパイク再配置がパフォーマンスの改善につながる、時間的な不整合と呼ばれるANN-SNN変換フレームワークの現象を特定します。
この観察に基づいて、生物学的にもっともらしい2相の確率(TPP)スパイクニューロンを導入し、変換プロセスをさらに強化します。
私たちは、CIFAR-10/100、CIFAR10-DVS、およびImagenetの包括的な実験を通じて理論的および経験的に提案された方法の利点を示し、最先端の結果を達成します。

要約(オリジナル)

Spiking Neural Networks (SNNs) offer a more energy-efficient alternative to Artificial Neural Networks (ANNs) by mimicking biological neural principles, establishing them as a promising approach to mitigate the increasing energy demands of large-scale neural models. However, fully harnessing the capabilities of SNNs remains challenging due to their discrete signal processing and temporal dynamics. ANN-SNN conversion has emerged as a practical approach, enabling SNNs to achieve competitive performance on complex machine learning tasks. In this work, we identify a phenomenon in the ANN-SNN conversion framework, termed temporal misalignment, in which random spike rearrangement across SNN layers leads to performance improvements. Based on this observation, we introduce biologically plausible two-phase probabilistic (TPP) spiking neurons, further enhancing the conversion process. We demonstrate the advantages of our proposed method both theoretically and empirically through comprehensive experiments on CIFAR-10/100, CIFAR10-DVS, and ImageNet across a variety of architectures, achieving state-of-the-art results.

arxiv情報

著者 Velibor Bojković,Xiaofeng Wu,Bin Gu
発行日 2025-02-21 09:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons はコメントを受け付けていません

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

要約

人間は、物理的な世界を認識し、理解し、相互作用する統一された認知能力を持っています。
なぜ大規模な言語モデルがこの全体的な理解を再現できないのですか?
ビジョン言語アクションモデル(VLA)における既存のトレーニングパラダイムの体系的な分析を通じて、2つの重要な課題を特定します。ロボットトレーニングが重要な視覚テキストアラインメントを上書きする偽の忘却と、タスクの干渉を競うタスク干渉パフォーマンスの低下と理解を理解する
共同で訓練されたとき。
これらの制限を克服するために、初期制御の習得後にマルチモーダルデータを段階的に統合する段階的なアライメントトレーニングを特徴とする新しいフレームワークと、タスクの干渉を最小限に抑えるための専門家アーキテクチャを段階的に統合するChatVlaを提案します。
CHATVLAは、視覚的な質問アンウェーデータセットで競争力のあるパフォーマンスを発揮し、マルチモーダル理解ベンチマークで最先端のビジョン言語アクション(VLA)メソッドを大幅に上回ります。
特に、MMMUで6倍高いパフォーマンスを達成し、ECOTよりもパラメーター効率の高い設計でMMStarで47.2%を獲得します。
さらに、CHATVLAは、OpenVLAなどの既存のVLAメソッドと比較して、25の実際のロボット操作タスクで優れたパフォーマンスを示しています。
私たちの調査結果は、堅牢なマルチモーダル理解と効果的なロボット制御の両方を達成するための統一されたフレームワークの可能性を強調しています。

要約(オリジナル)

Humans possess a unified cognitive ability to perceive, comprehend, and interact with the physical world. Why can’t large language models replicate this holistic understanding? Through a systematic analysis of existing training paradigms in vision-language-action models (VLA), we identify two key challenges: spurious forgetting, where robot training overwrites crucial visual-text alignments, and task interference, where competing control and understanding tasks degrade performance when trained jointly. To overcome these limitations, we propose ChatVLA, a novel framework featuring Phased Alignment Training, which incrementally integrates multimodal data after initial control mastery, and a Mixture-of-Experts architecture to minimize task interference. ChatVLA demonstrates competitive performance on visual question-answering datasets and significantly surpasses state-of-the-art vision-language-action (VLA) methods on multimodal understanding benchmarks. Notably, it achieves a six times higher performance on MMMU and scores 47.2% on MMStar with a more parameter-efficient design than ECoT. Furthermore, ChatVLA demonstrates superior performance on 25 real-world robot manipulation tasks compared to existing VLA methods like OpenVLA. Our findings highlight the potential of our unified framework for achieving both robust multimodal understanding and effective robot control.

arxiv情報

著者 Zhongyi Zhou,Yichen Zhu,Minjie Zhu,Junjie Wen,Ning Liu,Zhiyuan Xu,Weibin Meng,Ran Cheng,Yaxin Peng,Chaomin Shen,Feifei Feng
発行日 2025-02-21 07:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model はコメントを受け付けていません

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

要約

このペーパーでは、現在のヒューマノイドロボット制御フレームワークの制限に対処します。これは、主に反応的なメカニズムに依存しており、データ不足による自律的な相互作用機能を欠いています。
言語の理解、エゴセントリックシーンの知覚、およびモーションコントロールを統合する新しいフレームワークであるヒューマノイドVLAを提案し、普遍的なヒューマノイド制御を可能にします。
ヒューマノイドVLAは、テキストの説明と組み合わせた非エコセントリックヒトモーションデータセットを使用して、言語モーションの事前調整から始まり、モデルが普遍的なモーションパターンとアクションセマンティクスを学習できるようにします。
次に、エゴセントリックの視覚コンテキストを、パラメーター効率的なビデオコンディショニングされた微調整、コンテキスト認識モーション生成を可能にします。
さらに、モーションデータから直接導出された擬似解決を自動的に生成する自己監視データ増強戦略を導入します。
このプロセスは、生のモーションシーケンスを有益な質問回答ペアに変換し、大規模な非標識ビデオデータの効果的な使用を促進します。
全身制御アーキテクチャの上に構築された広範な実験は、ヒューマノイドVLAがコンテキスト認識を高め、オブジェクトの相互作用と環境探査タスクを達成し、適応的でインテリジェントなエンゲージメントのためのより人間のような能力を実証することを示しています。

要約(オリジナル)

This paper addresses the limitations of current humanoid robot control frameworks, which primarily rely on reactive mechanisms and lack autonomous interaction capabilities due to data scarcity. We propose Humanoid-VLA, a novel framework that integrates language understanding, egocentric scene perception, and motion control, enabling universal humanoid control. Humanoid-VLA begins with language-motion pre-alignment using non-egocentric human motion datasets paired with textual descriptions, allowing the model to learn universal motion patterns and action semantics. We then incorporate egocentric visual context through a parameter efficient video-conditioned fine-tuning, enabling context-aware motion generation. Furthermore, we introduce a self-supervised data augmentation strategy that automatically generates pseudoannotations directly derived from motion data. This process converts raw motion sequences into informative question-answer pairs, facilitating the effective use of large-scale unlabeled video data. Built upon whole-body control architectures, extensive experiments show that Humanoid-VLA achieves object interaction and environment exploration tasks with enhanced contextual awareness, demonstrating a more human-like capacity for adaptive and intelligent engagement.

arxiv情報

著者 Pengxiang Ding,Jianfei Ma,Xinyang Tong,Binghong Zou,Xinxin Luo,Yiguo Fan,Ting Wang,Hongchao Lu,Panzhong Mo,Jinxin Liu,Yuefan Wang,Huaicheng Zhou,Wenshuo Feng,Jiacheng Liu,Siteng Huang,Donglin Wang
発行日 2025-02-21 08:09:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration はコメントを受け付けていません

Explanations of Deep Language Models Explain Language Representations in the Brain

要約

人工知能の最近の進歩により、人間のようなパフォーマンスを達成するだけでなく、脳の言語処理メカニズムと計算原理を共有する大規模な言語モデル(LLM)が生まれました。
以前の研究では、主にLLMSの内部表現を神経活動と整列させることに焦点を当てていましたが、2つのドメイン間でより深いつながりを築くために説明可能なAI(XAI)方法を活用する新しいアプローチを導入します。
帰属方法を使用して、先行する単語がLLMの次の単語予測にどのように寄与するかを定量化し、これらの説明を使用して、同じ物語を聞いている参加者からfMRI録音を予測しました。
私たちの調査結果は、帰属方法が言語ネットワーク全体で脳の活動を堅牢に予測し、初期の言語分野の従来の内部表現を上回っていることを示しています。
このアラインメントは階層的です。初期層の説明は、脳の言語処理の初期段階に対応しますが、後の層はより高度な段階に合わせます。
さらに、レイヤーはLLMの次のワード予測$ \ unicode {x2014} $より高い属性スコアを持つ$ \ unicode {x2014} $を備えたもので、神経活動とより強い整合性を示しました。
この作業は、AIと神経科学の間の双方向の橋を確立します。
まず、属性方法は、言語理解の神経メカニズムを調査するための強力なレンズを提供し、前のコンテキストから意味がどのように現れるかを明らかにすることを実証します。
第二に、脳のアライメントをメトリックとして使用して、帰属方法の妥当性を評価し、生物学的妥当性を評価するためのフレームワークを提供することを提案します。

要約(オリジナル)

Recent advances in artificial intelligence have given rise to large language models (LLMs) that not only achieve human-like performance but also share computational principles with the brain’s language processing mechanisms. While previous research has primarily focused on aligning LLMs’ internal representations with neural activity, we introduce a novel approach that leverages explainable AI (XAI) methods to forge deeper connections between the two domains. Using attribution methods, we quantified how preceding words contribute to an LLM’s next-word predictions and employed these explanations to predict fMRI recordings from participants listening to the same narratives. Our findings demonstrate that attribution methods robustly predict brain activity across the language network, surpassing traditional internal representations in early language areas. This alignment is hierarchical: early-layer explanations correspond to the initial stages of language processing in the brain, while later layers align with more advanced stages. Moreover, the layers more influential on LLM next-word prediction$\unicode{x2014}$those with higher attribution scores$\unicode{x2014}$exhibited stronger alignment with neural activity. This work establishes a bidirectional bridge between AI and neuroscience. First, we demonstrate that attribution methods offer a powerful lens for investigating the neural mechanisms of language comprehension, revealing how meaning emerges from preceding context. Second, we propose using brain alignment as a metric to evaluate the validity of attribution methods, providing a framework for assessing their biological plausibility.

arxiv情報

著者 Maryam Rahimi,Yadollah Yaghoobzadeh,Mohammad Reza Daliri
発行日 2025-02-21 07:09:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, q-bio.NC | Explanations of Deep Language Models Explain Language Representations in the Brain はコメントを受け付けていません

I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search

要約

大規模な言語モデル(LLMS)の最近の進歩は、機械学習タスクの自動化において顕著な可能性を示しています。
ただし、既存のLLMベースのエージェントは、多くの場合、低ダイリティおよび最適ではないコード生成に苦労しています。
最近の作業により、これらの問題に対処するためにモンテカルロツリー検索(MCTS)が導入されていますが、制限は生成された思考の質と多様性、およびノー​​ド選択に使用されるスカラーバリューフィードバックメカニズムに持続します。
この研究では、内省的なモンテカルロツリー検索(I-MCTS)を紹介します。これは、親と兄弟ノードのソリューションと結果を綿密に分析する内省的プロセスを通じてツリーノードを繰り返し拡張する新しいアプローチです。
これにより、検索ツリー内のノードの継続的な改良が容易になり、それにより全体的な意思決定プロセスが強化されます。
さらに、大規模な言語モデル(LLM)ベースの値モデルを統合して、包括的な計算ロールアウトを実行する前に、各ノードのソリューションの直接評価を促進します。
Q値をLLM推定スコアから実際のパフォーマンススコアにシームレスに遷移するために、ハイブリッドの報酬メカニズムが実装されています。
これにより、高品質のノードを早期に移動できます。
さまざまなMLタスクに適用されるこのアプローチは、強力なオープンソースAutomlエージェントと比較してパフォーマンスの6%の絶対的な改善を示しており、エージェントAutomlシステムの強化における有効性を示しています。
https://github.com/jokieleung/i-mctsで入手できます

要約(オリジナル)

Recent advancements in large language models (LLMs) have shown remarkable potential in automating machine learning tasks. However, existing LLM-based agents often struggle with low-diversity and suboptimal code generation. While recent work has introduced Monte Carlo Tree Search (MCTS) to address these issues, limitations persist in the quality and diversity of thoughts generated, as well as in the scalar value feedback mechanisms used for node selection. In this study, we introduce Introspective Monte Carlo Tree Search (I-MCTS), a novel approach that iteratively expands tree nodes through an introspective process that meticulously analyzes solutions and results from parent and sibling nodes. This facilitates a continuous refinement of the node in the search tree, thereby enhancing the overall decision-making process. Furthermore, we integrate a Large Language Model (LLM)-based value model to facilitate direct evaluation of each node’s solution prior to conducting comprehensive computational rollouts. A hybrid rewarding mechanism is implemented to seamlessly transition the Q-value from LLM-estimated scores to actual performance scores. This allows higher-quality nodes to be traversed earlier. Applied to the various ML tasks, our approach demonstrates a 6% absolute improvement in performance compared to the strong open-source AutoML agents, showcasing its effectiveness in enhancing agentic AutoML systems. Resource available at https://github.com/jokieleung/I-MCTS

arxiv情報

著者 Zujie Liang,Feng Wei,Wujiang Xu,Lin Chen,Yuxi Qian,Xinhui Wu
発行日 2025-02-21 03:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search はコメントを受け付けていません

HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States

要約

追加のモダリティを統合すると、言語のみの対応物と比較して、脱獄攻撃などの安全リスクに対する大きな視覚言語モデル(LVLM)の感受性が高まります。
既存の研究は主に事後のアライメント技術に焦点を当てていますが、LVLM内の基礎となる安全メカニズムはほとんど未調査のままです。
この作業では、LVLMSが推論中に内部アクティベーション内で安全関連信号を本質的にエンコードするかどうかを調査します。
私たちの調査結果は、LVLMSが危険なプロンプトを処理するときに異なる活性化パターンを示すことを明らかにしています。これは、広範な微調整を必要とせずに敵対的な入力を検出および軽減するために活用できます。
この洞察に基づいて、安全性を高めるために内部モデルのアクティベーションを活用する新しいチューニングフリーのフレームワークであるHiddendEtectを紹介します。
実験結果は、{hiddendetect}がLVLMSに対する脱獄攻撃を検出する際に最先端の方法を上回ることを示しています。
本質的な安全性パターンを利用することにより、この方法は、マルチモーダルの脅威に対するLVLMの堅牢性を強化するための効率的でスケーラブルなソリューションを提供します。
私たちのコードは、https://github.com/leigest519/hiddendetectで公開されます。

要約(オリジナル)

The integration of additional modalities increases the susceptibility of large vision-language models (LVLMs) to safety risks, such as jailbreak attacks, compared to their language-only counterparts. While existing research primarily focuses on post-hoc alignment techniques, the underlying safety mechanisms within LVLMs remain largely unexplored. In this work , we investigate whether LVLMs inherently encode safety-relevant signals within their internal activations during inference. Our findings reveal that LVLMs exhibit distinct activation patterns when processing unsafe prompts, which can be leveraged to detect and mitigate adversarial inputs without requiring extensive fine-tuning. Building on this insight, we introduce HiddenDetect, a novel tuning-free framework that harnesses internal model activations to enhance safety. Experimental results show that {HiddenDetect} surpasses state-of-the-art methods in detecting jailbreak attacks against LVLMs. By utilizing intrinsic safety-aware patterns, our method provides an efficient and scalable solution for strengthening LVLM robustness against multimodal threats. Our code will be released publicly at https://github.com/leigest519/HiddenDetect.

arxiv情報

著者 Yilei Jiang,Xinyan Gao,Tianshuo Peng,Yingshui Tan,Xiaoyong Zhu,Bo Zheng,Xiangyu Yue
発行日 2025-02-21 03:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States はコメントを受け付けていません

Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting

要約

時系列予測(TSF)はさまざまなドメインで重要なタスクですが、既存のTSFモデルは高品質のデータに大きく依存しており、利用可能なすべてのデータを不十分に活用しています。
このペーパーでは、本質的に候補データセットを構築することにより、再ラベル時系列データセットに対する新しい自己監視アプローチを探ります。
単純な再構成ネットワークの最適化中、中間体は自立したパラダイムの擬似ラベルとして使用され、あらゆる予測因子の一般化を改善します。
適応マスク(詐欺)を使用して自己修正を導入します。これは、過剰なコンポーネントを破棄し、再構築から生成された擬似ラベルに選択的に置き換えます。
さらに、Spectral Norm Remulization(SNR)を組み込んで、損失の状況の観点からの過剰フィットをさらに抑制します。
11の実世界のデータセットでの実験は、詐欺がさまざまなバックボーンモデルのパフォーマンスを一貫して改善することを示しています。
This work offers a new perspective on constructing datasets and enhancing the generalization of TSF models through self-supervised learning.

要約(オリジナル)

Time Series Forecasting (TSF) is a crucial task in various domains, yet existing TSF models rely heavily on high-quality data and insufficiently exploit all available data. This paper explores a novel self-supervised approach to re-label time series datasets by inherently constructing candidate datasets. During the optimization of a simple reconstruction network, intermediates are used as pseudo labels in a self-supervised paradigm, improving generalization for any predictor. We introduce the Self-Correction with Adaptive Mask (SCAM), which discards overfitted components and selectively replaces them with pseudo labels generated from reconstructions. Additionally, we incorporate Spectral Norm Regularization (SNR) to further suppress overfitting from a loss landscape perspective. Our experiments on eleven real-world datasets demonstrate that SCAM consistently improves the performance of various backbone models. This work offers a new perspective on constructing datasets and enhancing the generalization of TSF models through self-supervised learning.

arxiv情報

著者 Yuxuan Yang,Dalin Zhang,Yuxuan Liang,Hua Lu,Gang Chen,Huan Li
発行日 2025-02-21 02:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting はコメントを受け付けていません

Multi-Agent Coordination across Diverse Applications: A Survey

要約

マルチエージェント調整は、多様なマルチエージェントシステム(MAS)のトレンド広がりを可能にする基礎となるメカニズムを研究し、新たなアプリケーションの拡大と急速なAIの進歩によって、ますます注目を集めています。
この調査では、4つの基本的な調整の質問に答える統一された理解を通じて、アプリケーション全体の調整研究の現在の状態の概要を説明しています。(1)調整とは何ですか。
(2)なぜ調整。
(3)誰と調整するか。
(4)調整する方法。
私たちの目的は、既存のアイデアと調整における専門知識を探求し、多様なアプリケーション全体でそれらの接続を検討しながら、新たな研究の方向性を特定し、強調することです。
まず、さまざまなアプリケーションに不可欠な一般的な調整の問題が特定されて分析されます。
第二に、広く研究されているドメイン、たとえば検索と救助、倉庫の自動化と物流、輸送システム、ヒューマノイドと擬人化ロボット、衛星システム、大規模な言語モデル(LLMS)を含む新興分野に至るまで、多くのMASアプリケーションが調査されています。

最後に、MASのスケーラビリティ、不均一性、および学習メカニズムに関するオープンな課題について分析および議論します。
特に、階層的および分散化された調整、人間の調整、およびLLMベースのMASの有望な将来の方向性としてのハイブリダイゼーションを特定します。

要約(オリジナル)

Multi-agent coordination studies the underlying mechanism enabling the trending spread of diverse multi-agent systems (MAS) and has received increasing attention, driven by the expansion of emerging applications and rapid AI advances. This survey outlines the current state of coordination research across applications through a unified understanding that answers four fundamental coordination questions: (1) what is coordination; (2) why coordination; (3) who to coordinate with; and (4) how to coordinate. Our purpose is to explore existing ideas and expertise in coordination and their connections across diverse applications, while identifying and highlighting emerging and promising research directions. First, general coordination problems that are essential to varied applications are identified and analyzed. Second, a number of MAS applications are surveyed, ranging from widely studied domains, e.g., search and rescue, warehouse automation and logistics, and transportation systems, to emerging fields including humanoid and anthropomorphic robots, satellite systems, and large language models (LLMs). Finally, open challenges about the scalability, heterogeneity, and learning mechanisms of MAS are analyzed and discussed. In particular, we identify the hybridization of hierarchical and decentralized coordination, human-MAS coordination, and LLM-based MAS as promising future directions.

arxiv情報

著者 Lijun Sun,Yijun Yang,Qiqi Duan,Yuhui Shi,Chao Lyu,Yu-Cheng Chang,Chin-Teng Lin,Yang Shen
発行日 2025-02-21 02:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Multi-Agent Coordination across Diverse Applications: A Survey はコメントを受け付けていません

Vision Foundation Models in Medical Image Analysis: Advances and Challenges

要約

Vision Foundation Models(VFMS)、特にVision Transformers(VIT)およびSegment Anything Model(SAM)の迅速な発展は、医療画像分析の分野で大きな進歩を引き起こしました。
これらのモデルは、長距離依存関係をキャプチャし、セグメンテーションタスクで高い一般化を達成する際に、例外的な能力を実証しています。
ただし、これらの大規模なモデルを医療画像分析に適応させると、医療と自然の画像の違い、効率的なモデル適応戦略の必要性、小規模な医療データセットの制限など、いくつかの課題があります。
このペーパーでは、ドメインの適応、モデル圧縮、およびフェデレート学習の課題に焦点を当てた、医療画像セグメンテーションへのVFMの適応に関する最先端の研究をレビューします。
アダプターベースの改善、知識蒸留技術、およびマルチスケールのコンテキスト機能モデリングの最新の開発について説明し、これらのボトルネックを克服するための将来の方向性を提案します。
私たちの分析では、医療イメージ分析に革命を起こし、臨床応用を強化するために、フェデレーション学習やモデル圧縮などの新たな方法論とともに、VFMの可能性を強調しています。
この作業の目標は、現在のアプローチの包括的な概要を提供し、医療画像セグメンテーションにおける革新の次の波を促進できる将来の研究の重要な領域を提案することです。

要約(オリジナル)

The rapid development of Vision Foundation Models (VFMs), particularly Vision Transformers (ViT) and Segment Anything Model (SAM), has sparked significant advances in the field of medical image analysis. These models have demonstrated exceptional capabilities in capturing long-range dependencies and achieving high generalization in segmentation tasks. However, adapting these large models to medical image analysis presents several challenges, including domain differences between medical and natural images, the need for efficient model adaptation strategies, and the limitations of small-scale medical datasets. This paper reviews the state-of-the-art research on the adaptation of VFMs to medical image segmentation, focusing on the challenges of domain adaptation, model compression, and federated learning. We discuss the latest developments in adapter-based improvements, knowledge distillation techniques, and multi-scale contextual feature modeling, and propose future directions to overcome these bottlenecks. Our analysis highlights the potential of VFMs, along with emerging methodologies such as federated learning and model compression, to revolutionize medical image analysis and enhance clinical applications. The goal of this work is to provide a comprehensive overview of current approaches and suggest key areas for future research that can drive the next wave of innovation in medical image segmentation.

arxiv情報

著者 Pengchen Liang,Bin Pu,Haishan Huang,Yiwei Li,Hualiang Wang,Weibo Ma,Qing Chang
発行日 2025-02-21 03:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Vision Foundation Models in Medical Image Analysis: Advances and Challenges はコメントを受け付けていません

AVD2: Accident Video Diffusion for Accident Video Description

要約

交通事故は、自律運転の複雑な課題を提示し、多くの場合、正確なシステム解釈と応答を妨げる予測不可能なシナリオを特徴としています。
それにもかかわらず、事故の原因の原因を解明し、事故シナリオに固有のトレーニングデータの不足により予防措置を提案するのに、一般的な方法論は不足しています。
この作業では、AVD2(事故ビデオの説明のための事故ビデオ拡散)を紹介します。これは、詳細な自然言語の説明と推論に合わせた事故ビデオを生成することで事故シーンの理解を高める新しいフレームワークであり、その結果、貢献したEMM-AU(強化されたマルチ –
モーダル事故ビデオ理解)データセット。
経験的な結果は、EMM-AUデータセットの統合が自動化されたメトリックと人間の評価の両方にわたって最先端のパフォーマンスを確立し、事故分析と予防の領域を著しく進めていることを明らかにしています。
プロジェクトリソースは、https://an-answer-tree.github.ioで入手できます

要約(オリジナル)

Traffic accidents present complex challenges for autonomous driving, often featuring unpredictable scenarios that hinder accurate system interpretation and responses. Nonetheless, prevailing methodologies fall short in elucidating the causes of accidents and proposing preventive measures due to the paucity of training data specific to accident scenarios. In this work, we introduce AVD2 (Accident Video Diffusion for Accident Video Description), a novel framework that enhances accident scene understanding by generating accident videos that aligned with detailed natural language descriptions and reasoning, resulting in the contributed EMM-AU (Enhanced Multi-Modal Accident Video Understanding) dataset. Empirical results reveal that the integration of the EMM-AU dataset establishes state-of-the-art performance across both automated metrics and human evaluations, markedly advancing the domains of accident analysis and prevention. Project resources are available at https://an-answer-tree.github.io

arxiv情報

著者 Cheng Li,Keyuan Zhou,Tong Liu,Yu Wang,Mingqiao Zhuang,Huan-ang Gao,Bu Jin,Hao Zhao
発行日 2025-02-21 05:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AVD2: Accident Video Diffusion for Accident Video Description はコメントを受け付けていません