A dataset-free approach for self-supervised learning of 3D reflectional symmetries

要約

このホワイトペーパーでは、入力オブジェクト自体のみでデータセットに依存するデータセットを必要とせずに、単一のオブジェクトの対称性を検出することを学ぶ自己監視モデルを探索します。
オブジェクトの対称性は、本質的な特徴によって決定され、トレーニング中の大規模なデータセットの必要性を排除できると仮定します。
さらに、グラウンドトゥルースラベルの必要性を排除する自己監視学習戦略を設計します。
これらの2つの重要な要素により、アプローチは効果的かつ効率的になり、このタスクの大きなラベル付きデータセットの構築に関連する法外なコストに対処します。
私たちの方法の斬新さは、対称点が同様の視覚的外観を示すべきだという考えに基づいて、オブジェクト上の各ポイントのコンピューティング機能にあります。
これを達成するために、基礎画像モデルから抽出された機能を活用して、ポイントの視覚的記述子を計算します。
このアプローチは、自己監視モデルの最適化を促進する視覚的な機能をポイントクラウドに装備しています。
実験結果は、私たちの方法が大規模なデータセットで訓練された最先端のモデルを上回ることを示しています。
さらに、私たちのモデルはより効率的で効果的であり、最小限の計算リソースとデータリソースで動作します。

要約(オリジナル)

In this paper, we explore a self-supervised model that learns to detect the symmetry of a single object without requiring a dataset-relying solely on the input object itself. We hypothesize that the symmetry of an object can be determined by its intrinsic features, eliminating the need for large datasets during training. Additionally, we design a self-supervised learning strategy that removes the necessity of ground truth labels. These two key elements make our approach both effective and efficient, addressing the prohibitive costs associated with constructing large, labeled datasets for this task. The novelty of our method lies in computing features for each point on the object based on the idea that symmetric points should exhibit similar visual appearances. To achieve this, we leverage features extracted from a foundational image model to compute a visual descriptor for the points. This approach equips the point cloud with visual features that facilitate the optimization of our self-supervised model. Experimental results demonstrate that our method surpasses the state-of-the-art models trained on large datasets. Furthermore, our model is more efficient, effective, and operates with minimal computational and data resources.

arxiv情報

著者 Issac Aguirre,Ivan Sipiran,Gabriel Montañana
発行日 2025-03-04 14:22:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A dataset-free approach for self-supervised learning of 3D reflectional symmetries はコメントを受け付けていません

10K is Enough: An Ultra-Lightweight Binarized Network for Infrared Small-Target Detection

要約

エッジデバイス上の赤外線小ターゲット検出(IRSTD)アルゴリズムの広範な展開には、モデル圧縮技術の調査が必要です。
バイナリニューラルネットワーク(BNN)は、モデル圧縮における並外れた効率によって区別されます。
ただし、赤外線ターゲットのサイズが小さいため、IRSTDタスクに厳しい精密要件が導入されますが、二等層化中の固有の精度損失は重要な課題を示します。
これに対処するために、完全な精度機能をネットワークの情報フローに統合しながら、二等層化された畳み込みのコア操作を保持するバイナリングされた赤外線小ターゲット検出ネットワーク(BIISNET)を提案します。
具体的には、双方向の畳み込み操作を活用しながら、フィーチャーマップに微調整されたセマンティック情報を保持するドットバイナリの畳み込みを提案します。
さらに、バックプロパゲーション中により包括的で徐々に細かい勾配を提供し、モデルの安定性を高め、最適な重量分布を促進するスムーズで適応的な動的ソフトサイン関数を導入します。

要約(オリジナル)

The widespread deployment of InfRared Small-Target Detection(IRSTD) algorithms on edge devices necessitates the exploration of model compression techniques. Binary neural networks (BNNs) are distinguished by their exceptional efficiency in model compression. However, the small size of infrared targets introduces stringent precision requirements for the IRSTD task, while the inherent precision loss during binarization presents a significant challenge. To address this, we propose the Binarized Infrared Small-Target Detection Network (BiisNet), which preserves the core operations of binarized convolutions while integrating full-precision features into the network’s information flow. Specifically, we propose the Dot-Binary Convolution, which retains fine-grained semantic information in feature maps while still leveraging the binarized convolution operations. In addition, we introduce a smooth and adaptive Dynamic Softsign function, which provides more comprehensive and progressively finer gradient during back-propagation, enhancing model stability and promoting an optimal weight distribution.Experimental results demonstrate that BiisNet not only significantly outperforms other binary architectures but also demonstrates strong competitiveness among state-of-the-art full-precision models.

arxiv情報

著者 Biqiao Xin,Qianchen Mao,Bingshu Wang,Jiangbin Zheng,Yong Zhao,C. L. Philip Chen
発行日 2025-03-04 14:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 10K is Enough: An Ultra-Lightweight Binarized Network for Infrared Small-Target Detection はコメントを受け付けていません

State of play and future directions in industrial computer vision AI standards

要約

人工知能(AI)とディープラーニング(DL)の分野における最近の途方もない進歩は、コンピュータービジョン(CV)の分野で対応する顕著な進歩をもたらし、高い産業的関心のある幅広いアプリケーション(例:ヘルスケア、自律運転、自動化など)で堅牢な技術ソリューションを示しています。
特定のドメインでのCVシステムの優れたパフォーマンスにもかかわらず、産業規模での開発と搾取は、とりわけ、開発されたAIモデルの信頼性、透明性、信頼性、セキュリティ、安全性、および堅牢性に関連する要件のアドレス指定を必要とします。
後者は、効率的で包括的で広く採用された産業基準の開発のための不可欠なニーズを高めています。
これに関連して、この研究では、モデルの解釈可能性、データの品質、規制コンプライアンスなどの重要な側面を強調し、産業用コンピュータービジョンAI標準の開発に関する現在のプレイ状態を調査しています。
特に、主要な国際標準化機関(ISO/IEC、IEEE、DINなど)によって提案されている、発売および現在開発されているCV基準の体系的な分析が実行されます。
後者は、この正則化の努力で観察された現在の課題と将来の方向性に関する包括的な議論によって補完されます。

要約(オリジナル)

The recent tremendous advancements in the areas of Artificial Intelligence (AI) and Deep Learning (DL) have also resulted into corresponding remarkable progress in the field of Computer Vision (CV), showcasing robust technological solutions in a wide range of application sectors of high industrial interest (e.g., healthcare, autonomous driving, automation, etc.). Despite the outstanding performance of CV systems in specific domains, their development and exploitation at industrial-scale necessitates, among other, the addressing of requirements related to the reliability, transparency, trustworthiness, security, safety, and robustness of the developed AI models. The latter raises the imperative need for the development of efficient, comprehensive and widely-adopted industrial standards. In this context, this study investigates the current state of play regarding the development of industrial computer vision AI standards, emphasizing on critical aspects, like model interpretability, data quality, and regulatory compliance. In particular, a systematic analysis of launched and currently developing CV standards, proposed by the main international standardization bodies (e.g. ISO/IEC, IEEE, DIN, etc.) is performed. The latter is complemented by a comprehensive discussion on the current challenges and future directions observed in this regularization endeavor.

arxiv情報

著者 Artemis Stefanidou,Panagiotis Radoglou-Grammatikis,Vasileios Argyriou,Panagiotis Sarigiannidis,Iraklis Varlamis,Georgios Th. Papadopoulos
発行日 2025-03-04 14:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | State of play and future directions in industrial computer vision AI standards はコメントを受け付けていません

Rethinking High-speed Image Reconstruction Framework with Spike Camera

要約

スパイクカメラは、革新的な神経型デバイスとして、連続スパイクストリームを生成して、従来のRGBカメラよりも帯域幅が低く、ダイナミックレンジが高い高速シーンをキャプチャします。
ただし、低光条件下でのスパイク入力から高品質の画像を再構築することは依然として困難です。
従来の学習ベースの方法は、多くの場合、トレーニングの監督として合成データセットに依存しています。
それでも、これらのアプローチは、低光の環境で発射された騒々しいスパイクを扱うときにflerteし、現実世界のデータセットでさらなるパフォーマンスの劣化につながります。
この現象は、主に不十分なノイズモデリングと合成データセットと実際のデータセットの間のドメインギャップによるものであり、その結果、テクスチャが不明な回復、過度のノイズ、輝度が低下します。
これらの課題に対処するために、従来のトレーニングパラダイムを超えた新しいスパイク間再構成フレームワークSpikeClipを紹介します。
Clipモデルの強力な機能を活用して、テキストと画像を調整するために、キャプチャされたシーンのテキストの説明と、監督として、より高品質の高品質のデータセットを組み込みます。
実際の低光光データセットU-CaltechとU-Cifarの実験は、SpikeClipがテクスチャの詳細と回収された画像の輝度バランスを大幅に強化することを示しています。
さらに、再構築された画像は、下流のタスクに必要なより広範な視覚的特徴とよく調整されており、挑戦的な環境でより堅牢で多用途のパフォーマンスを確保します。

要約(オリジナル)

Spike cameras, as innovative neuromorphic devices, generate continuous spike streams to capture high-speed scenes with lower bandwidth and higher dynamic range than traditional RGB cameras. However, reconstructing high-quality images from the spike input under low-light conditions remains challenging. Conventional learning-based methods often rely on the synthetic dataset as the supervision for training. Still, these approaches falter when dealing with noisy spikes fired under the low-light environment, leading to further performance degradation in the real-world dataset. This phenomenon is primarily due to inadequate noise modelling and the domain gap between synthetic and real datasets, resulting in recovered images with unclear textures, excessive noise, and diminished brightness. To address these challenges, we introduce a novel spike-to-image reconstruction framework SpikeCLIP that goes beyond traditional training paradigms. Leveraging the CLIP model’s powerful capability to align text and images, we incorporate the textual description of the captured scene and unpaired high-quality datasets as the supervision. Our experiments on real-world low-light datasets U-CALTECH and U-CIFAR demonstrate that SpikeCLIP significantly enhances texture details and the luminance balance of recovered images. Furthermore, the reconstructed images are well-aligned with the broader visual features needed for downstream tasks, ensuring more robust and versatile performance in challenging environments.

arxiv情報

著者 Kang Chen,Yajing Zheng,Tiejun Huang,Zhaofei Yu
発行日 2025-03-04 14:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Rethinking High-speed Image Reconstruction Framework with Spike Camera はコメントを受け付けていません

TReND: Transformer derived features and Regularized NMF for neonatal functional network Delineation

要約

早期発達の人間の脳の機能的ネットワーク(FNS)の正確な分割は、発達障害のバイオマーカーを特定し、機能的発達を理解するための基本的な基盤です。
安静状態のfMRI(RS-FMRI)は、機能的な変化を生体内で調査することを可能にしますが、ネットワークの成熟が不完全であるため、成人FNの分割は新生児に直接適用することはできません。
現在、標準化された新生児機能アトラスは利用できません。
この基本的な問題を解決するために、私たちは、新生児のFNSを発表するために正規化された非陰性マトリックス因数分解(RNMF)を統合する、斬新で完全に自動化された自己監視された変圧器-AutoEncoderフレームワークである傾向を提案します。
トレンドは、ボクセルごとのRS-FMRIデータにおいて、時空間的な特徴を効果的に解き放ちます。
このフレームワークは、信頼度適応マスクを変圧器の自己触媒層に統合して、ノイズの影響を緩和します。
自己監視されたデコーダーは、信頼性の高い時間的特徴として機能するエンコーダの潜在的な埋め込みを改良するためのレギュレーターとして機能します。
空間的コヒーレンスのために、脳表面ベースの測地線距離を空間エンコーディングとして組み込み、時間的特徴からの機能的接続性を組み込みます。
トレンドクラスタリングアプローチは、これらの機能をスパース性と滑らかさの制約の下で処理し、堅牢で生物学的にもっともらしい分割を生成します。
3つの異なるRS-FMRIデータセットのトレンドフレームワークを広範囲に検証しました。シミュレーション、DHCP、およびHCP-YAと同等の従来の特徴抽出およびクラスタリング技術に対してです。
私たちの結果は、新生児FNの描写におけるトレンドフレームワークの優位性を実証しました。
総称して、新生児のFN描写のために、斬新で堅牢なフレームワークであるトレンドを確立しました。
傾向由来の新生児FNSは、健康と疾患の周産期集団の新生児官能性アトラスとして機能する可能性があります。

要約(オリジナル)

Precise parcellation of functional networks (FNs) of early developing human brain is the fundamental basis for identifying biomarker of developmental disorders and understanding functional development. Resting-state fMRI (rs-fMRI) enables in vivo exploration of functional changes, but adult FN parcellations cannot be directly applied to the neonates due to incomplete network maturation. No standardized neonatal functional atlas is currently available. To solve this fundamental issue, we propose TReND, a novel and fully automated self-supervised transformer-autoencoder framework that integrates regularized nonnegative matrix factorization (RNMF) to unveil the FNs in neonates. TReND effectively disentangles spatiotemporal features in voxel-wise rs-fMRI data. The framework integrates confidence-adaptive masks into transformer self-attention layers to mitigate noise influence. A self supervised decoder acts as a regulator to refine the encoder’s latent embeddings, which serve as reliable temporal features. For spatial coherence, we incorporate brain surface-based geodesic distances as spatial encodings along with functional connectivity from temporal features. The TReND clustering approach processes these features under sparsity and smoothness constraints, producing robust and biologically plausible parcellations. We extensively validated our TReND framework on three different rs-fMRI datasets: simulated, dHCP and HCP-YA against comparable traditional feature extraction and clustering techniques. Our results demonstrated the superiority of the TReND framework in the delineation of neonate FNs with significantly better spatial contiguity and functional homogeneity. Collectively, we established TReND, a novel and robust framework, for neonatal FN delineation. TReND-derived neonatal FNs could serve as a neonatal functional atlas for perinatal populations in health and disease.

arxiv情報

著者 Sovesh Mohapatra,Minhui Ouyang,Shufang Tan,Jianlin Guo,Lianglong Sun,Yong He,Hao Huang
発行日 2025-03-04 14:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.SP, q-bio.NC, q-bio.QM | TReND: Transformer derived features and Regularized NMF for neonatal functional network Delineation はコメントを受け付けていません

Class-Aware PillarMix: Can Mixed Sample Data Augmentation Enhance 3D Object Detection with Radar Point Clouds?

要約

3D認識タスクでのデータ収集と注釈に必要な努力により、既存のデータを混合することにより多様なトレーニングサンプルを生成するために、サンプルデータ増強(MSDA)が混合されています。
最近、ポイントクラウド用に多くのMSDA技術が開発されましたが、主にLidarデータをターゲットにしており、Radar Point Cloudsへのアプリケーションをほとんど未開拓にしています。
この論文では、既存のMSDAメソッドをレーダーポイントクラウドに適用する可能性を検証し、これらの手法の適応におけるいくつかの課題を特定します。
これらの障害物は、レーダーの不規則な角度分布、マルチレーダーセットアップの単一センサー極レイアウトからの逸脱、およびポイントスパースに由来しています。
これらの問題に対処するために、クラスラベルに導かれた3Dポイントクラウドの柱レベルで混合物を適用する新しいMSDAアプローチであるクラスアウェアPillarmix(Capmix)を提案します。
サンプル全体に単一のミックス比に依存する方法とは異なり、Capmixは各柱に独立した比率を割り当て、サンプルの多様性を高めます。
さまざまなクラスの密度を考慮するために、クラス固有の分布を使用します。密なオブジェクト(大型車両など)の場合、別のサンプルからポイントを支持する比率を歪めますが、スパースオブジェクト(例:歩行者)の場合、元のポイントをサンプリングします。
このクラスが認識しているミキシングは、重要な詳細を保持し、各サンプルを新しい情報で充実させ、最終的にはより多様なトレーニングデータを生成します。
実験結果は、この方法がパフォーマンスを大幅に向上させるだけでなく、2つのデータセット(Bosch StreetとK-Radar)で既存のMSDAアプローチを上回ることを示しています。
この簡単でありながら効果的なアプローチが、レーダーデータのMSDA技術のさらなる調査を引き起こすと考えています。

要約(オリジナル)

Due to the significant effort required for data collection and annotation in 3D perception tasks, mixed sample data augmentation (MSDA) has been widely studied to generate diverse training samples by mixing existing data. Recently, many MSDA techniques have been developed for point clouds, but they mainly target LiDAR data, leaving their application to radar point clouds largely unexplored. In this paper, we examine the feasibility of applying existing MSDA methods to radar point clouds and identify several challenges in adapting these techniques. These obstacles stem from the radar’s irregular angular distribution, deviations from a single-sensor polar layout in multi-radar setups, and point sparsity. To address these issues, we propose Class-Aware PillarMix (CAPMix), a novel MSDA approach that applies MixUp at the pillar level in 3D point clouds, guided by class labels. Unlike methods that rely a single mix ratio to the entire sample, CAPMix assigns an independent ratio to each pillar, boosting sample diversity. To account for the density of different classes, we use class-specific distributions: for dense objects (e.g., large vehicles), we skew ratios to favor points from another sample, while for sparse objects (e.g., pedestrians), we sample more points from the original. This class-aware mixing retains critical details and enriches each sample with new information, ultimately generating more diverse training data. Experimental results demonstrate that our method not only significantly boosts performance but also outperforms existing MSDA approaches across two datasets (Bosch Street and K-Radar). We believe that this straightforward yet effective approach will spark further investigation into MSDA techniques for radar data.

arxiv情報

著者 Miao Zhang,Sherif Abdulatif,Benedikt Loesch,Marco Altmann,Bin Yang
発行日 2025-03-04 15:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Class-Aware PillarMix: Can Mixed Sample Data Augmentation Enhance 3D Object Detection with Radar Point Clouds? はコメントを受け付けていません

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、生物学的妥当性とエネルギー効率のために大きな注目を集めており、人工ニューラルネットワーク(ANN)の有望な代替品になっています。
ただし、SNNとANNSのパフォーマンスギャップは、SNNの広範な採用を妨げる大きな課題のままです。
この論文では、空間的な注意アグリゲーターSNN(STAA-SNN)フレームワークを提案します。これは、空間的依存性と時間的依存関係の両方に動的に焦点を当ててキャプチャします。
まず、SNN専用に設計されたスパイク駆動型の自己触媒メカニズムを紹介します。
さらに、潜在的な時間的関係を着信機能に統合するためのポジションエンコードを先駆的に組み込みます。
空間的情報集約については、ステップに注意を払って、さまざまなステップで関連する機能を選択的に増幅します。
最後に、ローカルオプティマを回避するためのタイムステップのランダムドロップアウト戦略を実装します。
その結果、STAA-SNNは空間的および時間的依存関係の両方を効果的にキャプチャし、モデルが複雑なパターンを分析し、正確な予測を行うことができます。
このフレームワークは、多様なデータセット全体で並外れたパフォーマンスを実証し、強力な一般化機能を示しています。
特に、STAA-SNNは、神経形態のデータセットCIFAR10-DVで最新の結果を達成し、静的データセットCIFAR-10、CIFAR-100、およびイメージェットで97.14%、82.05%、70.40%の顕著なパフォーマンスを実現します。
さらに、私たちのモデルは、0.33 \%から2.80 \%の範囲のパフォーマンスの改善を示し、時間ステップが少なくなります。
モデルのコードはGitHubで入手できます。

要約(オリジナル)

Spiking Neural Networks (SNNs) have gained significant attention due to their biological plausibility and energy efficiency, making them promising alternatives to Artificial Neural Networks (ANNs). However, the performance gap between SNNs and ANNs remains a substantial challenge hindering the widespread adoption of SNNs. In this paper, we propose a Spatial-Temporal Attention Aggregator SNN (STAA-SNN) framework, which dynamically focuses on and captures both spatial and temporal dependencies. First, we introduce a spike-driven self-attention mechanism specifically designed for SNNs. Additionally, we pioneeringly incorporate position encoding to integrate latent temporal relationships into the incoming features. For spatial-temporal information aggregation, we employ step attention to selectively amplify relevant features at different steps. Finally, we implement a time-step random dropout strategy to avoid local optima. As a result, STAA-SNN effectively captures both spatial and temporal dependencies, enabling the model to analyze complex patterns and make accurate predictions. The framework demonstrates exceptional performance across diverse datasets and exhibits strong generalization capabilities. Notably, STAA-SNN achieves state-of-the-art results on neuromorphic datasets CIFAR10-DVS, with remarkable performances of 97.14%, 82.05% and 70.40% on the static datasets CIFAR-10, CIFAR-100 and ImageNet, respectively. Furthermore, our model exhibits improved performance ranging from 0.33\% to 2.80\% with fewer time steps. The code for the model is available on GitHub.

arxiv情報

著者 Tianqing Zhang,Kairong Yu,Xian Zhong,Hongwei Wang,Qi Xu,Qiang Zhang
発行日 2025-03-04 15:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks はコメントを受け付けていません

Memory Efficient Continual Learning for Edge-Based Visual Anomaly Detection

要約

視覚異常検出(VAD)は、多数の現実世界のアプリケーションを備えたコンピュータービジョンの重要なタスクです。
ただし、これらのモデルをエッジデバイスに展開することは、制約された計算リソースやメモリリソースなど、重要な課題を提示します。
さらに、実際の設定での動的なデータ分布は、継続的なモデル適応を必要とし、限られたリソースの下での展開をさらに複雑にします。
これらの課題に対処するために、エッジデバイスでの視覚異常検出(CLAD)の継続的な学習の問題に関する新しい調査を提示します。
Edgeデバイスでのメモリフットプリントが低いことを考えると、STFPMアプローチを評価します。これは、リプレイアプローチと組み合わせるとパフォーマンスが良好であることを示します。
さらに、最近提案されたアプローチの動作を研究することを提案します。ペーストは、エッジ向けに設計されていますが、継続的な学習コンテキストではまだ調査されていません。
我々の結果は、ペーストがSTPFMの軽いバージョンであるだけでなく、優れた異常検出性能も達成し、リプレイ技術でF1ピクセルのパフォーマンスを10%改善することを示しています。
特に、ペーストの構造により、一連の圧縮リプレイ技術を使用してテストすることができ、STFPMの従来のリプレイと比較して、メモリオーバーヘッドを最大91.5%減少させます。
私たちの研究では、リソース制約のあるエッジデバイスの覆われたシナリオを段階的に適応および学習するVADモデルを展開する可能性があることが証明されています。

要約(オリジナル)

Visual Anomaly Detection (VAD) is a critical task in computer vision with numerous real-world applications. However, deploying these models on edge devices presents significant challenges, such as constrained computational and memory resources. Additionally, dynamic data distributions in real-world settings necessitate continuous model adaptation, further complicating deployment under limited resources. To address these challenges, we present a novel investigation into the problem of Continual Learning for Visual Anomaly Detection (CLAD) on edge devices. We evaluate the STFPM approach, given its low memory footprint on edge devices, which demonstrates good performance when combined with the Replay approach. Furthermore, we propose to study the behavior of a recently proposed approach, PaSTe, specifically designed for the edge but not yet explored in the Continual Learning context. Our results show that PaSTe is not only a lighter version of STPFM, but it also achieves superior anomaly detection performance, improving the f1 pixel performance by 10% with the Replay technique. In particular, the structure of PaSTe allows us to test it using a series of Compressed Replay techniques, reducing memory overhead by a maximum of 91.5% compared to the traditional Replay for STFPM. Our study proves the feasibility of deploying VAD models that adapt and learn incrementally on CLAD scenarios on resource-constrained edge devices.

arxiv情報

著者 Manuel Barusco,Lorenzo D’Antoni,Davide Dalle Pezze,Francesco Borsatti,Gian Antonio Susto
発行日 2025-03-04 15:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Memory Efficient Continual Learning for Edge-Based Visual Anomaly Detection はコメントを受け付けていません

WalkVLM:Aid Visually Impaired People Walking by Vision Language Model

要約

世界中の約2億人の個人が視覚障害の程度がさまざまであるため、AIテクノロジーを活用してこれらの人々に歩行支援を提供することが重要です。
ビジョン言語モデル(VLMS)の最近の進捗状況により、VLMを適用してウォーキングガイダンスを提供することが一般的になりました。
ただし、既存のウォーキングガイダンスの方法は、主に、トレーニングや評価のための標準化されたベンチマークなしに、公開されていない自己キュレーションの質問アンウェーデータセットに基づいています。
さらに、ウォーキングアシスタンスには、リアルタイムのストリーミングビデオ分析と簡潔でありながら有益なリマインダーの生成が必要になることが多く、過度の反応と推論の効率が低いためにVLMSが闘争します。
このペーパーでは、12,000のビデオ解決ペアで構成されるウォーキングアシスタンスに特化した最初の大規模なデータセットを紹介し、視覚障害のある個人が歩くのに役立つシステムと評価システムの統一ベンチマークを提供します。
さらに、WalkVLMモデルが提案されています。これは、簡潔ではあるが有益なリマインダーを生成するために階層的計画に一連の思考を採用し、一時的に認識した適応予測を利用して、リマインダーの時間的冗長性を減らします。
最後に、ブラインドウォーキングタスクのための強固なベンチマークを確立し、他のVLMと比較してこのタスクのストリームビデオ処理におけるWalkVLMの利点を確認しました。
データセットとコードは、https://walkvlm2024.github.ioで入手できます。

要約(オリジナル)

Approximately 200 million individuals around the world suffer from varying degrees of visual impairment, making it crucial to leverage AI technology to offer walking assistance for these people. With the recent progress of vision-language models (VLMs), applying VLMs to offer walking guidance has become popular. However, the existing methods of walking guidance are mainly based on self-curated question-answering datasets that are not publicly accessible, without a standardized benchmark for training or evaluation. Moreover, walking assistance often requires real-time streaming video analysis and the generation of concise yet informative reminders, making VLMs struggle due to excessive responses and low efficiency in inferences. In this paper, we introduce the first large-scale dataset dedicated to walking assistance, comprising 12,000 video-annotation pairs, to provide a unified benchmark for training and evaluating systems to help visually-impaired individuals walk. Furthermore, a WalkVLM model is proposed, which employs chain of thought for hierarchical planning to generate concise but informative reminders and utilizes temporal-aware adaptive prediction to reduce the temporal redundancy of reminders. Finally, we have established a solid benchmark for blind walking task and verified the advantages of WalkVLM in stream video processing for this task compared to other VLMs. Our dataset and code are available at https://walkvlm2024.github.io.

arxiv情報

著者 Zhiqiang Yuan,Ting Zhang,Ying Deng,Jiapei Zhang,Yeshuang Zhu,Zexi Jia,Jie Zhou,Jinchao Zhang
発行日 2025-03-04 15:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | WalkVLM:Aid Visually Impaired People Walking by Vision Language Model はコメントを受け付けていません

A Comprehensive Survey on Composed Image Retrieval

要約

Composed Image Retrieval(CIR)は、ユーザーが参照画像と参照画像への望ましい変更を指定する変更画像と変更テキストを含むマルチモーダルクエリを使用して、ユーザーがターゲット画像を検索できるようにする新たでありながら挑戦的なタスクです。
その重要な学術的および実用的な価値を考えると、CIRは、特に深い学習の進歩により、コンピュータービジョンと機械学習コミュニティに関心のある急速に成長している領域になりました。
私たちの知る限り、この分野のタイムリーな概要を提供するCIRの包括的なレビューは現在ありません。
したがって、特にACM TOI、SIGIR、CVPRを含むトップカンファレンスやジャーナルで120を超える出版物からの洞察を統合し、既存の監視されたCIRおよびゼロショットCIRモデルを微細粒度分類法を使用して体系的に分類します。
包括的なレビューについては、属性ベースのCIRやダイアログベースのCIRなど、CIRに密接に関連するタスクのアプローチについても簡単に説明します。
さらに、評価のためのベンチマークデータセットを要約し、複数のデータセットで実験結果を比較することにより、既存の監視済みおよびゼロショットCIRメソッドを分析します。
さらに、私たちはこの分野で有望な将来の方向性を提示し、さらなる調査に関心のある研究者に実用的な洞察を提供します。
関連する作品のキュレーションされたコレクションは、https://github.com/haokunwen/awesome-composed-image-retrievalで維持され、継続的に更新されます。

要約(オリジナル)

Composed Image Retrieval (CIR) is an emerging yet challenging task that allows users to search for target images using a multimodal query, comprising a reference image and a modification text specifying the user’s desired changes to the reference image. Given its significant academic and practical value, CIR has become a rapidly growing area of interest in the computer vision and machine learning communities, particularly with the advances in deep learning. To the best of our knowledge, there is currently no comprehensive review of CIR to provide a timely overview of this field. Therefore, we synthesize insights from over 120 publications in top conferences and journals, including ACM TOIS, SIGIR, and CVPR In particular, we systematically categorize existing supervised CIR and zero-shot CIR models using a fine-grained taxonomy. For a comprehensive review, we also briefly discuss approaches for tasks closely related to CIR, such as attribute-based CIR and dialog-based CIR. Additionally, we summarize benchmark datasets for evaluation and analyze existing supervised and zero-shot CIR methods by comparing experimental results across multiple datasets. Furthermore, we present promising future directions in this field, offering practical insights for researchers interested in further exploration. The curated collection of related works is maintained and continuously updated in https://github.com/haokunwen/Awesome-Composed-Image-Retrieval.

arxiv情報

著者 Xuemeng Song,Haoqiang Lin,Haokun Wen,Bohan Hou,Mingzhu Xu,Liqiang Nie
発行日 2025-03-04 15:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM | A Comprehensive Survey on Composed Image Retrieval はコメントを受け付けていません