TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation

要約

内視鏡外科ビデオのインデックス作成は、外科的データサイエンスでは不可欠であり、系統的レトロスペクティブ分析と臨床パフォーマンス評価の基礎を形成します。
その重要性にもかかわらず、現在のビデオ分析は、時間のかかるプロセスである手動の索引付けに依存しています。
コンピュータービジョンの進歩、特に深い学習は自動化の可能性を提供しますが、進歩は公開されている密集した注釈付きの外科データセットの欠如によって制限されます。
これに対処するために、24,306個のアナール内視鏡顕微手術(TEMS)ビデオマイクロクリップを含むオープンソースデータセットであるTemset-24Kを提示します。
各クリップには、新規の階層ラベル分類分類段階、タスク、およびアクショントリプレットを使用して、複雑な外科的ワークフローを獲得する臨床専門家によって細心の注意を払って注釈が付けられます。
このデータセットを検証するために、トランスベースのアーキテクチャを含む深い学習モデルにベンチマークしました。
私たちのインシリコ評価は、セットアップや縫合などの主要フェーズで高精度(最大0.99)およびF1スコア(最大0.99)を示しています。
Convnext、Vit、およびSwin V2エンコーダーでテストされたStalnetモデルは、一貫してセグメント化された適切なフェーズをセグメント化しました。
Temset-24Kは、外科的データサイエンスにおける最先端のソリューションを推進する重要なベンチマークを提供します。

要約(オリジナル)

Indexing endoscopic surgical videos is vital in surgical data science, forming the basis for systematic retrospective analysis and clinical performance evaluation. Despite its significance, current video analytics rely on manual indexing, a time-consuming process. Advances in computer vision, particularly deep learning, offer automation potential, yet progress is limited by the lack of publicly available, densely annotated surgical datasets. To address this, we present TEMSET-24K, an open-source dataset comprising 24,306 trans-anal endoscopic microsurgery (TEMS) video micro-clips. Each clip is meticulously annotated by clinical experts using a novel hierarchical labeling taxonomy encompassing phase, task, and action triplets, capturing intricate surgical workflows. To validate this dataset, we benchmarked deep learning models, including transformer-based architectures. Our in silico evaluation demonstrates high accuracy (up to 0.99) and F1 scores (up to 0.99) for key phases like Setup and Suturing. The STALNet model, tested with ConvNeXt, ViT, and SWIN V2 encoders, consistently segmented well-represented phases. TEMSET-24K provides a critical benchmark, propelling state-of-the-art solutions in surgical data science.

arxiv情報

著者 Muhammad Bilal,Mahmood Alam,Deepa Bapu,Stephan Korsgen,Neeraj Lal,Simon Bach,Amir M Hajivanand,Muhammed Ali,Kamran Soomro,Iqbal Qasim,Paweł Capik,Aslam Khan,Zaheer Khan,Hunaid Vohra,Massimo Caputo,Andrew Beggs,Adnan Qayyum,Junaid Qadir,Shazad Ashraf
発行日 2025-02-10 17:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation はコメントを受け付けていません

Learning Musical Representations for Music Performance Question Answering

要約

音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。
まばらなオーディオを備えた一般的なシナリオとは異なり、音楽パフォーマンスには継続的に密なオーディオ信号が含まれます。
オーディオビデオQAの既存のマルチモーダル学習方法は、一般的なシナリオで印象的な機能を示していますが、音楽パフォーマンス内の基本的な問題に対処することはできません。
と音楽。
したがって、既存の方法は、音楽のパフォーマンスに関する質問に不正確に答える傾向があります。
上記の研究ギャップを埋めるために、(i)音楽データに固有の複雑なマルチモーダル相互接続性を考慮すると、私たちの主要なバックボーンは、音楽のコンテキストにマルチモーダル相互作用を組み込むように設計されています。
(ii)モデルが音楽特性を学習できるようにするために、現在の音楽データセットでリズミカルなソースと音楽ソースに注釈を付けてリリースします。
(iii)時間を手にした音声視聴覚モデリングの場合、モデルの音楽予測を時間的次元に合わせます。
私たちの実験は、音楽AVQAデータセットに対する最先端の影響を示しています。
私たちのコードは、https://github.com/xid32/amuseで入手できます。

要約(オリジナル)

Music performances are representative scenarios for audio-visual modeling. Unlike common scenarios with sparse audio, music performances continuously involve dense audio signals throughout. While existing multimodal learning methods on the audio-video QA demonstrate impressive capabilities in general scenarios, they are incapable of dealing with fundamental problems within the music performances: they underexplore the interaction between the multimodal signals in performance and fail to consider the distinctive characteristics of instruments and music. Therefore, existing methods tend to answer questions regarding musical performances inaccurately. To bridge the above research gaps, (i) given the intricate multimodal interconnectivity inherent to music data, our primary backbone is designed to incorporate multimodal interactions within the context of music; (ii) to enable the model to learn music characteristics, we annotate and release rhythmic and music sources in the current music datasets; (iii) for time-aware audio-visual modeling, we align the model’s music predictions with the temporal dimension. Our experiments show state-of-the-art effects on the Music AVQA datasets. Our code is available at https://github.com/xid32/Amuse.

arxiv情報

著者 Xingjian Diao,Chunhui Zhang,Tingxuan Wu,Ming Cheng,Zhongyu Ouyang,Weiyi Wu,Jiang Gui
発行日 2025-02-10 17:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Musical Representations for Music Performance Question Answering はコメントを受け付けていません

A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition

要約

畳み込みニューラルネットワーク(CNNS)とその変動により、表情表現認識(FER)の有効性が示されています。
ただし、現実世界のシナリオで高い計算の複雑さとマルチビューヘッドのポーズを扱う際に、彼らは課題に直面しています。
これらの問題に取り組むために、マルチスケール機能融合(LANMSFF)を組み込んだ軽量の注意ネットワークを導入します。
最初の課題では、軽量ネットワークを慎重に設計します。
2つの新しいコンポーネント、すなわちマスの注意(MassATT)とPoint Wise Feature Selection(PWFS)ブロックを提示することにより、2番目の課題に対処します。
Massattブロックは、重要な機能を強調しながら無関係な機能を抑制することにより、機能マップを再調整するためのチャネルと空間の注意マップを同時に生成します。
さらに、PWFSブロックは、融合プロセスの前にあまり意味のない機能を破棄する機能選択メカニズムを採用しています。
このメカニズムは、マルチスケール機能を直接融合する以前の方法と区別します。
提案されたアプローチは、パラメーターカウントと堅牢性の点で最先端の方法に匹敵する結果を達成しました。KDEFで90.77%、2013年FERで70.44%、FERPLUSデータセットで86.96%を記録しました。
LANMSFFのコードは、https://github.com/ae-1129/lanmsffで入手できます。

要約(オリジナル)

Convolutional neural networks (CNNs) and their variations have shown effectiveness in facial expression recognition (FER). However, they face challenges when dealing with high computational complexity and multi-view head poses in real-world scenarios. We introduce a lightweight attentional network incorporating multi-scale feature fusion (LANMSFF) to tackle these issues. For the first challenge, we carefully design a lightweight network. We address the second challenge by presenting two novel components, namely mass attention (MassAtt) and point wise feature selection (PWFS) blocks. The MassAtt block simultaneously generates channel and spatial attention maps to recalibrate feature maps by emphasizing important features while suppressing irrelevant ones. In addition, the PWFS block employs a feature selection mechanism that discards less meaningful features prior to the fusion process. This mechanism distinguishes it from previous methods that directly fuse multi-scale features. Our proposed approach achieved results comparable to state-of-the-art methods in terms of parameter count and robustness to pose variation, with accuracy rates of 90.77% on KDEF, 70.44% on FER-2013, and 86.96% on FERPlus datasets. The code for LANMSFF is available at https://github.com/AE-1129/LANMSFF.

arxiv情報

著者 Ali Ezati,Mohammadreza Dezyani,Rajib Rana,Roozbeh Rajabi,Ahmad Ayatollahi
発行日 2025-02-10 17:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition はコメントを受け付けていません

Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists

要約

ビデオ生成の最近の進歩により、ビデオ編集技術の開発が促進されました。これは、反転ベースとエンドツーエンドの方法に分類できます。
ただし、現在のビデオ編集方法は依然としていくつかの課題に悩まされています。
反転ベースの方法は、トレーニングなしで柔軟性がありますが、推論中は時間がかかり、きめの細かい編集命令と闘い、アーティファクトとジッターを生成します。
一方、トレーニングのために編集されたビデオペアに依存しているエンドツーエンドの方法は、より速い推論速度を提供しますが、多くの場合、高品質のトレーニングビデオペアがないために編集結果が低下します。
この論文では、エンドツーエンドの方法のギャップを閉じるために、高品質のビデオ編集データセットであるSe \ 〜Norita-2Mを紹介します。
se \ 〜norita-2mは、約200万のビデオ編集ペアで構成されています。
4つの高品質で専門のビデオ編集モデルを作成することで構築されており、それぞれがチームによって作成および訓練され、最先端の編集結果を達成します。
また、編集が不十分なビデオペアを排除するために、フィルタリングパイプラインを提案します。
さらに、一般的なビデオ編集アーキテクチャを調査して、現在の事前に訓練された生成モデルに基づいて最も効果的な構造を特定します。
広範な実験では、データセットが非常に高品質のビデオ編集結果を生み出すのに役立つことが示されています。
詳細については、https://senorita.github.ioをご覧ください。

要約(オリジナル)

Recent advancements in video generation have spurred the development of video editing techniques, which can be divided into inversion-based and end-to-end methods. However, current video editing methods still suffer from several challenges. Inversion-based methods, though training-free and flexible, are time-consuming during inference, struggle with fine-grained editing instructions, and produce artifacts and jitter. On the other hand, end-to-end methods, which rely on edited video pairs for training, offer faster inference speeds but often produce poor editing results due to a lack of high-quality training video pairs. In this paper, to close the gap in end-to-end methods, we introduce Se\~norita-2M, a high-quality video editing dataset. Se\~norita-2M consists of approximately 2 millions of video editing pairs. It is built by crafting four high-quality, specialized video editing models, each crafted and trained by our team to achieve state-of-the-art editing results. We also propose a filtering pipeline to eliminate poorly edited video pairs. Furthermore, we explore common video editing architectures to identify the most effective structure based on current pre-trained generative model. Extensive experiments show that our dataset can help to yield remarkably high-quality video editing results. More details are available at https://senorita.github.io.

arxiv情報

著者 Bojia Zi,Penghui Ruan,Marco Chen,Xianbiao Qi,Shaozhe Hao,Shihao Zhao,Youze Huang,Bin Liang,Rong Xiao,Kam-Fai Wong
発行日 2025-02-10 17:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists はコメントを受け付けていません

Enhancing Pneumonia Diagnosis and Severity Assessment through Deep Learning: A Comprehensive Approach Integrating CNN Classification and Infection Segmentation

要約

肺疾患は、肺炎が一般的な懸念事項であり、実質的な世界的な健康課題をもたらします。
この研究は、肺炎を検出および評価するための深い学習技術の活用に焦点を当て、相互に接続された2つの目的に対処します。
当初、肺炎-19を考慮した包括的な診断評価の必要性を強調している肺炎症分類のために、畳み込みニューラルネットワーク(CNN)モデルが導入されています。
その後、この研究は、感染の重症度を決定するために、深い学習ベースのセグメンテーションを利用することを提唱しています。
この二重に並ぶアプローチは、医療専門家にとって貴重な洞察を提供し、肺炎のより微妙な理解と効果的な治療を促進します。
深い学習の統合は、肺炎検出の精度と効率を高めることを目的としており、それにより世界規模での医療結果の強化に貢献します。

要約(オリジナル)

Lung disease poses a substantial global health challenge, with pneumonia being a prevalent concern. This research focuses on leveraging deep learning techniques to detect and assess pneumonia, addressing two interconnected objectives. Initially, Convolutional Neural Network (CNN) models are introduced for pneumonia classification, emphasizing the necessity of comprehensive diagnostic assessments considering COVID-19. Subsequently, the study advocates for the utilization of deep learning-based segmentation to determine the severity of infection. This dual-pronged approach offers valuable insights for medical professionals, facilitating a more nuanced understanding and effective treatment of pneumonia. Integrating deep learning aims to elevate the accuracy and efficiency of pneumonia detection, thereby contributing to enhanced healthcare outcomes on a global scale.

arxiv情報

著者 S Kumar Reddy Mallidi
発行日 2025-02-10 17:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Enhancing Pneumonia Diagnosis and Severity Assessment through Deep Learning: A Comprehensive Approach Integrating CNN Classification and Infection Segmentation はコメントを受け付けていません

CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning

要約

このペーパーでは、生の波形に直接適用されるリアルタイムの因果オーディオ除去用に設計されたタイムドメインニューラルネットワークアーキテクチャであるCleanumambaを紹介します。
Cleanumambaは、ボトルネック層にMamba状態空間モデルを組み込んだU-Netエンコーダーデコーダー構造を活用します。
従来の自己告発とLSTMメカニズムをMambaに置き換えることにより、私たちのアーキテクチャは、一定のメモリフットプリントを維持しながら、優れた除去パフォーマンスを提供し、ストリーミング操作を可能にします。
効率を向上させるために、構造化されたチャネル剪定を適用し、オーディオ品質を損なうことなくモデルサイズの8倍の削減を達成しました。
私たちのモデルは、Speech 2020深部ノイズ抑制チャレンジで強い結果を示しています。
具体的には、CleanumambaはPESQスコア2.42とSTOIを95.1%で、442Kパラメーターと468m MACのみで、リアルタイムパフォーマンスで大きなモデルをマッチングまたはアウトパフォームします。
コードはhttps://github.com/lab-emi/cleanumambaで入手できます

要約(オリジナル)

This paper presents CleanUMamba, a time-domain neural network architecture designed for real-time causal audio denoising directly applied to raw waveforms. CleanUMamba leverages a U-Net encoder-decoder structure, incorporating the Mamba state-space model in the bottleneck layer. By replacing conventional self-attention and LSTM mechanisms with Mamba, our architecture offers superior denoising performance while maintaining a constant memory footprint, enabling streaming operation. To enhance efficiency, we applied structured channel pruning, achieving an 8X reduction in model size without compromising audio quality. Our model demonstrates strong results in the Interspeech 2020 Deep Noise Suppression challenge. Specifically, CleanUMamba achieves a PESQ score of 2.42 and STOI of 95.1% with only 442K parameters and 468M MACs, matching or outperforming larger models in real-time performance. Code will be available at: https://github.com/lab-emi/CleanUMamba

arxiv情報

著者 Sjoerd Groot,Qinyu Chen,Jan C. van Gemert,Chang Gao
発行日 2025-02-10 18:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning はコメントを受け付けていません

ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models

要約

目的:地球システムモデル(ESM)大気、海、陸地、氷、生物圏の相互作用を統合して、さまざまな条件下で地域および世界の気候の状態を推定します。
ESMは非常に複雑であるため、深いニューラルネットワークアーキテクチャを使用して複雑さをモデル化し、ダウンサンプリングデータを保存します。
このホワイトペーパーでは、ESMデータの単一画像SR(SR)再構成タスクを改善するために、Vision Transformer Sinusoidal表現ネットワーク(VISIR)を提案します。
方法:Visirは、SR視力変圧器(VIT)のSR能力を組み合わせて、SRタスクで観察されるスペクトルバイアスに対処するために、正弦波表現ネットワーク(SIREN)の高周波詳細保存を組み合わせています。
結果:VISIRは、3つの異なる測定で平均7.1dB PSNR緩衝されたSR世代敵(SRガン)、SR世代の敵対的(SR-Gans)を4.1 dB、7.5 dB、Sr世代の敵対的(SR-Gans)よりも優れています。
結論:提案されたVISIRが評価され、最先端の方法と比較されます。
結果は、提案されたアルゴリズムが平均平方根誤差(MSE)、ピークシグナルからノイズへの比例(PSNR)、および構造類似性指数測定(SSIM)の観点から他の方法を上回っていることを示しています。

要約(オリジナル)

Purpose: Earth system models (ESMs) integrate the interactions of the atmosphere, ocean, land, ice, and biosphere to estimate the state of regional and global climate under a wide variety of conditions. The ESMs are highly complex, and thus, deep neural network architectures are used to model the complexity and store the down-sampled data. In this paper, we propose the Vision Transformer Sinusoidal Representation Networks (ViSIR) to improve the single image SR (SR) reconstruction task for the ESM data. Methods: ViSIR combines the SR capability of Vision Transformers (ViT) with the high-frequency detail preservation of the Sinusoidal Representation Network (SIREN) to address the spectral bias observed in SR tasks. Results: The ViSIR outperforms ViT by 4.1 dB, SIREN by 7.5 dB, and SR-Generative Adversarial (SR-GANs) by 7.1dB PSNR on average for three different measurements. Conclusion: The proposed ViSIR is evaluated and compared with state-of-the-art methods. The results show that the proposed algorithm is outperforming other methods in terms of Mean Square Error(MSE), Peak-Signal-to-Noise-Ratio(PSNR), and Structural Similarity Index Measure(SSIM).

arxiv情報

著者 Ehsan Zeraatkar,Salah Faroughi,Jelena Tesic
発行日 2025-02-10 18:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ViSIR: Vision Transformer Single Image Reconstruction Method for Earth System Models はコメントを受け付けていません

DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion

要約

最新の通信システムにおけるDeep Neural Network(DNN)ベースのデジタルプレディスターション(DPD)の採用の増加には、効率的なハードウェアの実装が必要です。
このホワイトペーパーでは、ゲート再生ユニット(GRU)ニューラルネットワーク(NN)に基づいて、超高速、小さなエリア、および電力効率の高いDPDアクセラレータであるDPD-NeuralEngineを紹介します。
共同設計のソフトウェアとハ​​ードウェアアプローチを活用して、22 nm CMOS実装は2 GHzで動作し、最大250 MSPのI/Q信号を処理できます。
実験結果は、-45.3 DBCの隣接チャネル電力比(ACPR)および-39.8 dBのエラーベクトルの大きさ(EVM)で測定されたDPD線形化パフォーマンスを使用して、256.5 GOPSのスループットと1.32トップ/Wの電力効率を示しています。
私たちの知る限り、この作業は、最初のAIベースのDPDアプリケーション固有の統合回路(ASIC)アクセラレータを表し、6.6 TOPS/W/MM $^2 $の電力エリア効率(PAE)を達成します。

要約(オリジナル)

The increasing adoption of Deep Neural Network (DNN)-based Digital Pre-distortion (DPD) in modern communication systems necessitates efficient hardware implementations. This paper presents DPD-NeuralEngine, an ultra-fast, tiny-area, and power-efficient DPD accelerator based on a Gated Recurrent Unit (GRU) neural network (NN). Leveraging a co-designed software and hardware approach, our 22 nm CMOS implementation operates at 2 GHz, capable of processing I/Q signals up to 250 MSps. Experimental results demonstrate a throughput of 256.5 GOPS and power efficiency of 1.32 TOPS/W with DPD linearization performance measured in Adjacent Channel Power Ratio (ACPR) of -45.3 dBc and Error Vector Magnitude (EVM) of -39.8 dB. To our knowledge, this work represents the first AI-based DPD application-specific integrated circuit (ASIC) accelerator, achieving a power-area efficiency (PAE) of 6.6 TOPS/W/mm$^2$.

arxiv情報

著者 Ang Li,Haolin Wu,Yizhuo Wu,Qinyu Chen,Leo C. N. de Vreede,Chang Gao
発行日 2025-02-10 18:16:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV | DPD-NeuralEngine: A 22-nm 6.6-TOPS/W/mm$^2$ Recurrent Neural Network Accelerator for Wideband Power Amplifier Digital Pre-Distortion はコメントを受け付けていません

Wandering around: A bioinspired approach to visual attention through object motion sensitivity

要約

アクティブビジョンは、動的な視覚的知覚を可能にし、大規模なデータセットと高い計算リソースに依存するコンピュータービジョンの静的なフィードフォワードアーキテクチャの代替品を提供します。
生物学的選択的注意メカニズムにより、エージェントは関心のある顕著な領域(ROI)に焦点を合わせ、リアルタイムの応答性を維持しながら計算需要を減らします。
哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化をキャプチャすることにより、効率的な低遅延処理を可能にすることにより、この機能を強化します。
イベントベースのカメラが動いている間に移動するオブジェクトを区別するために、エージェントはターゲットを正確に検出し、視野(Fovea)に集中するためにオブジェクトモーションセグメンテーションメカニズムを必要とします。
イベントベースのセンサーと神経型アルゴリズムを統合することは、スパイクニューラルネットワークを使用して計算を並列化し、動的環境に適応するパラダイムシフトを表します。
この作業は、オブジェクトのモーション感度を介して選択的な注意を払うために、スパイク畳み込みの畳み込みニューラルネットワークバイオインスパイアされた注意システムを提示します。
このシステムは、PAN-TILTユニットに取り付けられたSpeck Neuromorphic Hardwareに統合された動的ビジョンセンサーを使用して、ROIとサッカードを識別して、固定眼球運動を介してイベントを生成します。
このシステムは、理想的な格子を使用してイベントカメラのモーションセグメンテーションデータセットに対してベンチマークされていることを特徴づけ、マルチオブジェクトモーションセグメンテーションで82.2%の平均IOUと96%の平均SSIMに達します。
顕著なオブジェクトの検出は、オフィスシナリオで88.8%の精度に達し、イベント支援の低光照明ビデオオブジェクトセグメンテーションデータセットでは低光条件で89.8%に達します。
リアルタイムのデモンストレーターは、動的シーンに対するシステムの0.12秒の応答を示しています。
その学習のない設計により、知覚シーン全体の堅牢性が保証され、より複雑なアーキテクチャの基礎として機能するリアルタイムロボットアプリケーションの信頼できる基盤となります。

要約(オリジナル)

Active vision enables dynamic visual perception, offering an alternative to static feedforward architectures in computer vision, which rely on large datasets and high computational resources. Biological selective attention mechanisms allow agents to focus on salient Regions of Interest (ROIs), reducing computational demand while maintaining real-time responsiveness. Event-based cameras, inspired by the mammalian retina, enhance this capability by capturing asynchronous scene changes enabling efficient low-latency processing. To distinguish moving objects while the event-based camera is in motion the agent requires an object motion segmentation mechanism to accurately detect targets and center them in the visual field (fovea). Integrating event-based sensors with neuromorphic algorithms represents a paradigm shift, using Spiking Neural Networks to parallelize computation and adapt to dynamic environments. This work presents a Spiking Convolutional Neural Network bioinspired attention system for selective attention through object motion sensitivity. The system generates events via fixational eye movements using a Dynamic Vision Sensor integrated into the Speck neuromorphic hardware, mounted on a Pan-Tilt unit, to identify the ROI and saccade toward it. The system, characterized using ideal gratings and benchmarked against the Event Camera Motion Segmentation Dataset, reaches a mean IoU of 82.2% and a mean SSIM of 96% in multi-object motion segmentation. The detection of salient objects reaches 88.8% accuracy in office scenarios and 89.8% in low-light conditions on the Event-Assisted Low-Light Video Object Segmentation Dataset. A real-time demonstrator shows the system’s 0.12 s response to dynamic scenes. Its learning-free design ensures robustness across perceptual scenes, making it a reliable foundation for real-time robotic applications serving as a basis for more complex architectures.

arxiv情報

著者 Giulia D Angelo,Victoria Clerico,Chiara Bartolozzi,Matej Hoffmann,P. Michael Furlong,Alexander Hadjiivanov
発行日 2025-02-10 18:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Wandering around: A bioinspired approach to visual attention through object motion sensitivity はコメントを受け付けていません

Accelerating Data Processing and Benchmarking of AI Models for Pathology

要約

基礎モデリングの進歩により、計算病理学が再形成されました。
ただし、利用可能なモデルの数が増え、標準化されたベンチマークの不足により、その強み、制限、およびさらなる開発の可能性を評価するのがますます複雑になります。
これらの課題に対処するために、全面的な画像処理、基礎モデルのベンチマーク、公開されたタスクのキュレーションのための新しいソフトウェアツールスイートを紹介します。
これらのリソースは、フィールドの透明性、再現性、継続的な進歩を促進すると予想しています。

要約(オリジナル)

Advances in foundation modeling have reshaped computational pathology. However, the increasing number of available models and lack of standardized benchmarks make it increasingly complex to assess their strengths, limitations, and potential for further development. To address these challenges, we introduce a new suite of software tools for whole-slide image processing, foundation model benchmarking, and curated publicly available tasks. We anticipate that these resources will promote transparency, reproducibility, and continued progress in the field.

arxiv情報

著者 Andrew Zhang,Guillaume Jaume,Anurag Vaidya,Tong Ding,Faisal Mahmood
発行日 2025-02-10 18:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Accelerating Data Processing and Benchmarking of AI Models for Pathology はコメントを受け付けていません