Towards High-performance Spiking Transformers from ANN to SNN Conversion

要約

スパイクニューラルネットワーク(SNN)は、エネルギー効率、高速処理能力、堅牢性のために大きな可能性を示します。
SNNを構築するには、2つの主要なアプローチがあります。
直接トレーニング方法には多くのメモリが必要ですが、変換方法はよりシンプルで効率的なオプションを提供します。
ただし、現在の変換方法は、主に畳み込みニューラルネットワーク(CNN)のSNNSに変換することに焦点を当てています。
変圧器をSNNに変換することは、非線形モジュールが存在するため困難です。
この論文では、変換の精度を維持するための期待補償モジュールを提案します。
コアのアイデアは、以前のTタイムステップからの情報を使用して、タイムステップTでの予想される出力を計算することです。また、マルチスレッチホールドニューロンと対応する並列パラメーター正規化も提案して、ネットワークレイテンシと消費電力を削減することを目指して、高精度に必要な大きな時間ステップの課題に対処します。
私たちの実験結果は、私たちのアプローチが最先端のパフォーマンスを達成することを示しています。
たとえば、トランスの元の出力の35%しか消費しない一方で、4つの時間ステップを使用して、精度が1 \%の損失のみで88.60 \%の上位1精度を達成します。
私たちの知る限り、これは、複雑なデータセットでの高精度、低レイテンシ、および低消費電力を達成するスパイクトランスのための最初の成功した人工ニューラルネットワーク(ANN)からSNN変換です。
提案された方法のソースコードは、https://github.com/h-z-h-cell/transformer-to-snn-ecmtで入手できます。

要約(オリジナル)

Spiking neural networks (SNNs) show great potential due to their energy efficiency, fast processing capabilities, and robustness. There are two main approaches to constructing SNNs. Direct training methods require much memory, while conversion methods offer a simpler and more efficient option. However, current conversion methods mainly focus on converting convolutional neural networks (CNNs) to SNNs. Converting Transformers to SNN is challenging because of the presence of non-linear modules. In this paper, we propose an Expectation Compensation Module to preserve the accuracy of the conversion. The core idea is to use information from the previous T time-steps to calculate the expected output at time-step T. We also propose a Multi-Threshold Neuron and the corresponding Parallel Parameter normalization to address the challenge of large time steps needed for high accuracy, aiming to reduce network latency and power consumption. Our experimental results demonstrate that our approach achieves state-of-the-art performance. For example, we achieve a top-1 accuracy of 88.60\% with only a 1\% loss in accuracy using 4 time steps while consuming only 35\% of the original power of the Transformer. To our knowledge, this is the first successful Artificial Neural Network (ANN) to SNN conversion for Spiking Transformers that achieves high accuracy, low latency, and low power consumption on complex datasets. The source codes of the proposed method are available at https://github.com/h-z-h-cell/Transformer-to-SNN-ECMT.

arxiv情報

著者 Zihan Huang,Xinyu Shi,Zecheng Hao,Tong Bu,Jianhao Ding,Zhaofei Yu,Tiejun Huang
発行日 2025-02-28 16:12:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards High-performance Spiking Transformers from ANN to SNN Conversion はコメントを受け付けていません

The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition

要約

カメラトラップビデオ映像のコンピュータービジョン分析は、キャプチャされた行動が人口の健康の変化の最も早い指標のいくつかを提供するため、野生生物の保全に不可欠です。
最近、いくつかの衝撃的な動物行動データセットと方法が導入され、それらの使用を促進しています。
ただし、行動相関の背景情報の役割と、分散除外の一般化に対するその重要な影響は未調査のままです。
これに応じて、350を超える個別のカメラの場所で記録された20時間の野生のチンパンジーの動作を特徴とするPanaf-FGBGデータセットを提示します。
ユニークなことに、すべてのビデオを、同じカメラの場所から対応するバックグラウンドビデオ(チンパンジーなし)とチンパンジー(フォアグラウンドビデオと呼ばれる)と組み合わせます。
データセットの2つのビューを示します。1つはカメラの位置が重複し、もう1つは分離場所のあるものです。
このセットアップにより、初めて、分散療法と分散療法条件の直接的な評価、および行動認識モデルに対する背景の影響を定量化することができます。
すべてのクリップには、一意のカメラIDや詳細なテキストシーンの説明など、豊富な行動注釈とメタデータが付属しています。
さらに、いくつかのベースラインを確立し、畳み込み型モデルでは、分散型のパフォーマンスを +5.42%マップ、 +3.75%マップで +5.42%マップで高める非常に効果的な潜在スペース正規化手法を提示します。
最後に、バックグラウンド期間(つまり、前景ビデオ内のバックグラウンドフレームのカウント)を含む、分散外の行動認識における背景の役割に関する詳細な分析を提供します。

要約(オリジナル)

Computer vision analysis of camera trap video footage is essential for wildlife conservation, as captured behaviours offer some of the earliest indicators of changes in population health. Recently, several high-impact animal behaviour datasets and methods have been introduced to encourage their use; however, the role of behaviour-correlated background information and its significant effect on out-of-distribution generalisation remain unexplored. In response, we present the PanAf-FGBG dataset, featuring 20 hours of wild chimpanzee behaviours, recorded at over 350 individual camera locations. Uniquely, it pairs every video with a chimpanzee (referred to as a foreground video) with a corresponding background video (with no chimpanzee) from the same camera location. We present two views of the dataset: one with overlapping camera locations and one with disjoint locations. This setup enables, for the first time, direct evaluation of in-distribution and out-of-distribution conditions, and for the impact of backgrounds on behaviour recognition models to be quantified. All clips come with rich behavioural annotations and metadata including unique camera IDs and detailed textual scene descriptions. Additionally, we establish several baselines and present a highly effective latent-space normalisation technique that boosts out-of-distribution performance by +5.42% mAP for convolutional and +3.75% mAP for transformer-based models. Finally, we provide an in-depth analysis on the role of backgrounds in out-of-distribution behaviour recognition, including the so far unexplored impact of background durations (i.e., the count of background frames within foreground videos).

arxiv情報

著者 Otto Brookes,Maksim Kukushkin,Majid Mirmehdi,Colleen Stephens,Paula Dieguez,Thurston C. Hicks,Sorrel Jones,Kevin Lee,Maureen S. McCarthy,Amelia Meier,Emmanuelle Normand,Erin G. Wessling,Roman M. Wittig,Kevin Langergraber,Klaus Zuberbühler,Lukas Boesch,Thomas Schmid,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt
発行日 2025-02-28 16:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition はコメントを受け付けていません

ReMatching Dynamic Reconstruction Flow

要約

画像入力から動的シーンを再構築することは、多くのダウンストリームアプリケーションを備えた基本的なコンピュータービジョンタスクです。
最近の進歩にもかかわらず、既存のアプローチは、目に見えない視点やタイムスタンプから高品質の再構築を達成するのに苦労しています。
この作業では、変形前の再構成モデ​​ルを組み込むことで再構築品質を改善するように設計された再戦フレームワークを紹介します。
私たちのアプローチは、速度フィールドベースのプライアーを提唱しています。これは、既存の動的再構成パイプラインをシームレスに補足できる一致手順を提案します。
フレームワークは非常に適応性があり、さまざまな動的表現に適用できます。
さらに、複数のタイプのモデルプライアーの統合をサポートし、より単純なモデルプライアーを組み合わせてより複雑なクラスを作成できるようにします。
合成と現実世界の動的シーンの両方を含む人気のあるベンチマークに関する私たちの評価は、私たちのアプローチで現在の最先端の方法を増強することで、再構成の精度の明確な改善につながることを示しています。

要約(オリジナル)

Reconstructing a dynamic scene from image inputs is a fundamental computer vision task with many downstream applications. Despite recent advancements, existing approaches still struggle to achieve high-quality reconstructions from unseen viewpoints and timestamps. This work introduces the ReMatching framework, designed to improve reconstruction quality by incorporating deformation priors into dynamic reconstruction models. Our approach advocates for velocity-field based priors, for which we suggest a matching procedure that can seamlessly supplement existing dynamic reconstruction pipelines. The framework is highly adaptable and can be applied to various dynamic representations. Moreover, it supports integrating multiple types of model priors and enables combining simpler ones to create more complex classes. Our evaluations on popular benchmarks involving both synthetic and real-world dynamic scenes demonstrate that augmenting current state-of-the-art methods with our approach leads to a clear improvement in reconstruction accuracy.

arxiv情報

著者 Sara Oblak,Despoina Paschalidou,Sanja Fidler,Matan Atzmon
発行日 2025-02-28 16:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | ReMatching Dynamic Reconstruction Flow はコメントを受け付けていません

Towards long-term player tracking with graph hierarchies and domain-specific features

要約

チームスポーツ分析では、プレーヤーの外観の類似性、閉塞、および動的モーションパターンのため、長期的なプレーヤー追跡は依然として困難なタスクです。
視野または長期にわたる閉塞からの延長された欠席の後に、プレーヤーを正確に再識別し、トラックレットを再接続することは、堅牢な分析には重要です。
ジャージー番号、チームID、フィールド座標などのドメイン固有の機能を活用する階層的なグラフベースのアプローチであるSportssushiを紹介し、追跡精度を高めます。
Sportssushiは、Soccernetデータセットと新たに提案されたホッケー追跡データセットで高性能を達成しています。
プレー表面全体をキャプチャする固定カメラを使用して記録されたホッケーデータセットには、チームIDとジャージー番号の長いシーケンスと注釈が含まれており、長期追跡機能を評価するのに適しています。
私たちのアプローチにドメイン固有の特徴を含めると、実験で示されているように、関連性の精度が大幅に向上します。
データセットとコードは、https://github.com/mkoshkina/sports-sushiで入手できます。

要約(オリジナル)

In team sports analytics, long-term player tracking remains a challenging task due to player appearance similarity, occlusion, and dynamic motion patterns. Accurately re-identifying players and reconnecting tracklets after extended absences from the field of view or prolonged occlusions is crucial for robust analysis. We introduce SportsSUSHI, a hierarchical graph-based approach that leverages domain-specific features, including jersey numbers, team IDs, and field coordinates, to enhance tracking accuracy. SportsSUSHI achieves high performance on the SoccerNet dataset and a newly proposed hockey tracking dataset. Our hockey dataset, recorded using a stationary camera capturing the entire playing surface, contains long sequences and annotations for team IDs and jersey numbers, making it well-suited for evaluating long-term tracking capabilities. The inclusion of domain-specific features in our approach significantly improves association accuracy, as demonstrated in our experiments. The dataset and code are available at https://github.com/mkoshkina/sports-SUSHI.

arxiv情報

著者 Maria Koshkina,James H. Elder
発行日 2025-02-28 17:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards long-term player tracking with graph hierarchies and domain-specific features はコメントを受け付けていません

Anatomically-guided masked autoencoder pre-training for aneurysm detection

要約

頭蓋内動脈瘤は、世界中の罹患率と死亡率の主な原因であり、それらを手動で検出することは、複雑で時間のかかる作業です。
自動化されたソリューションが望ましいものの、トレーニングデータの利用可能性が限られているため、典型的な監視された学習フレームワークを使用してこのようなソリューションを開発することは困難です。
この作業では、動脈瘤検出タスクを微調整する前に、より広く利用可能な未定のヘッドCTスキャンデータを使用して3D視力変圧器モデルを事前にトレーニングするための新しいトレーニング前戦略を提案します。
具体的には、マスクされた自動エンコーダー(MAE)の事前トレーニングを次の方法で変更します。3D注意を計算可能にするために因数分解された自己触媒メカニズムを使用して、動脈瘤が発生する可能性が高い地域に焦点を当てるために、マスクされたパッチを動脈近くのエリアに制限し、それぞれの距離を記述するだけでなく、耐久性の距離を記述します。
それにより、バックボーンの学習表現を強化します。
SOTA動脈瘤検出モデルと比較して、私たちのアプローチは、0.5の誤検知速度で4〜8%の絶対感度を獲得します。
コードと重みがリリースされます。

要約(オリジナル)

Intracranial aneurysms are a major cause of morbidity and mortality worldwide, and detecting them manually is a complex, time-consuming task. Albeit automated solutions are desirable, the limited availability of training data makes it difficult to develop such solutions using typical supervised learning frameworks. In this work, we propose a novel pre-training strategy using more widely available unannotated head CT scan data to pre-train a 3D Vision Transformer model prior to fine-tuning for the aneurysm detection task. Specifically, we modify masked auto-encoder (MAE) pre-training in the following ways: we use a factorized self-attention mechanism to make 3D attention computationally viable, we restrict the masked patches to areas near arteries to focus on areas where aneurysms are likely to occur, and we reconstruct not only CT scan intensity values but also artery distance maps, which describe the distance between each voxel and the closest artery, thereby enhancing the backbone’s learned representations. Compared with SOTA aneurysm detection models, our approach gains +4-8% absolute Sensitivity at a false positive rate of 0.5. Code and weights will be released.

arxiv情報

著者 Alberto Mario Ceballos-Arroyo,Jisoo Kim,Chu-Hsuan Lin,Lei Qin,Geoffrey S. Young,Huaizu Jiang
発行日 2025-02-28 17:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anatomically-guided masked autoencoder pre-training for aneurysm detection はコメントを受け付けていません

AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation

要約

斬新で挑戦的なタスクとして、セグメンテーションを参照することで、コンピュータービジョンと自然言語処理を組み合わせて、テキストの説明に基づいてオブジェクトをローカライズおよびセグメント化します。
画像セグメンテーション(RIS)を参照している間、自然な画像で広く研究されていますが、特に無人航空機(UAV)からの航空画像にはほとんど注意が払われていません。
複雑な空間スケール、閉塞、さまざまなオブジェクトの向きを含むUAV画像のユニークな課題は、既存のRIアプローチを効果的ではありません。
重要な制限は、ピクセルレベルのマスクに手動で注釈を付け、テキストの説明を生成することは労働集約的で時間がかかるため、UAV固有のデータセットの欠如です。
このギャップに対処するために、テキストの説明を生成するために、既存のUAVセグメンテーションデータセットとマルチモーダル大手言語モデル(MLLM)を活用する自動ラベル付けパイプラインを設計します。
さらに、効果的なクロスモーダルの理解と回転を覚えているマルチスケール融合(RAMSF)のデコダルのための視覚言語クロスアテナントモジュール(VLCAM)を特徴とするUAV紹介画像セグメンテーション(UAV-RIS)の新しいフレームワークである航空紹介トランス(AeroreFormer)を提案します。
新しく開発された2つのデータセットでの広範な実験は、既存の方法よりもAeroreFormerの優位性を示しており、UAV-Risの新しいベンチマークを確立しています。
データセットとコードは、https://github.com/lironui/aeroreformerで公開されます。

要約(オリジナル)

As a novel and challenging task, referring segmentation combines computer vision and natural language processing to localize and segment objects based on textual descriptions. While referring image segmentation (RIS) has been extensively studied in natural images, little attention has been given to aerial imagery, particularly from unmanned aerial vehicles (UAVs). The unique challenges of UAV imagery, including complex spatial scales, occlusions, and varying object orientations, render existing RIS approaches ineffective. A key limitation has been the lack of UAV-specific datasets, as manually annotating pixel-level masks and generating textual descriptions is labour-intensive and time-consuming. To address this gap, we design an automatic labelling pipeline that leverages pre-existing UAV segmentation datasets and Multimodal Large Language Models (MLLM) for generating textual descriptions. Furthermore, we propose Aerial Referring Transformer (AeroReformer), a novel framework for UAV referring image segmentation (UAV-RIS), featuring a Vision-Language Cross-Attention Module (VLCAM) for effective cross-modal understanding and a Rotation-Aware Multi-Scale Fusion (RAMSF) decoder to enhance segmentation accuracy in aerial scenes. Extensive experiments on two newly developed datasets demonstrate the superiority of AeroReformer over existing methods, establishing a new benchmark for UAV-RIS. The datasets and code will be publicly available at: https://github.com/lironui/AeroReformer.

arxiv情報

著者 Rui Li,Xiaowei Zhao
発行日 2025-02-28 17:19:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AeroReformer: Aerial Referring Transformer for UAV-based Referring Image Segmentation はコメントを受け付けていません

Dual Thinking and Logical Processing — Are Multi-modal Large Language Models Closing the Gap with Human Vision ?

要約

二重の思考フレームワークは、高速で直感的で、論理処理が遅くなることを考慮します。
ビジョンにおける二重の思考の認識には、直感的で論理的な処理からの推論が異なり、後者は現在の研究では不足している画像が必要です。
新しい敵対的なデータセットを導入して、人間のビジョンにおける二重思考フレームワークの証拠を提供します。これは、深い学習モデルの定性的行動の研究も促進します。
私たちの精神物理学的研究は、迅速に連続して複数の推論が存在することを示しており、エラーの分析により、視覚処理の早期停止により関連情報が欠落する可能性があることが示されています。
MLLMS(マルチモーダルの大手言語モデル)とVLMS(Vision Language Models)は、人​​間の視力における直感的な処理のエラーの修正に大きな進歩を遂げ、論理処理を必要とする画像のパフォーマンスの向上を示しました。
ただし、論理処理の改善は、直感的な処理の進歩に対応していません。
対照的に、セグメンテーションモデルは、識別されたインスタンスでのサブコンポーネントに関連するエラーで示されるように、直感的なヒト処理で見られるものと同様のエラーを示し、サブ構造の理解の欠如を示します。
AI(人工知能)ベースのシステムが、自律運転などの安全性クリティカルなドメインのアプリケーションの増加を見つけると、論理処理機能の統合が不可欠になります。
これにより、パフォーマンスが向上するだけでなく、スケーリングベースのアプローチの制限にも対処し、実際の環境で堅牢性と信頼性を確保します。

要約(オリジナル)

The dual thinking framework considers fast, intuitive, and slower logical processing. The perception of dual thinking in vision requires images where inferences from intuitive and logical processing differ, and the latter is under-explored in current studies. We introduce a novel adversarial dataset to provide evidence for the dual thinking framework in human vision, which also facilitates the study of the qualitative behavior of deep learning models. Our psychophysical studies show the presence of multiple inferences in rapid succession, and analysis of errors shows that the early stopping of visual processing can result in missing relevant information. MLLMs (Multi-modal Large Language Models) and VLMs (Vision Language Models) have made significant progress in correcting errors in intuitive processing in human vision and showed enhanced performance on images requiring logical processing. However, their improvements in logical processing have not kept pace with their advancements in intuitive processing. In contrast, segmentation models exhibit errors similar to those seen in intuitive human processing and lack understanding of sub-structures, as indicated by errors related to sub-components in identified instances. As AI (Artificial Intelligence)-based systems find increasing applications in safety-critical domains like autonomous driving, the integration of logical processing capabilities becomes essential. This not only enhances performance but also addresses the limitations of scaling-based approaches while ensuring robustness and reliability in real-world environments.

arxiv情報

著者 Kailas Dayanandan,Nikhil Kumar,Anand Sinha,Brejesh Lall
発行日 2025-02-28 17:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Dual Thinking and Logical Processing — Are Multi-modal Large Language Models Closing the Gap with Human Vision ? はコメントを受け付けていません

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩は、さまざまなマルチモーダルコンテキストで顕著な機能を示しています。
ただし、特に長老操作タスクのためのロボットシナリオへのアプリケーションは、大きな制限を明らかにしています。
これらの制限は、3つの重要なロボット脳機能を欠いている現在のMLLMから生じます。計画能力は、複雑な操作命令を管理可能なサブタスクに分解することを伴います。
アフォーダンスの認識、インタラクティブオブジェクトのアフォーダンスを認識して解釈する能力。
軌跡の予測である、成功した実行に必要な完全な操作軌跡を予測する先見性。
ロボットの脳のコア機能を抽象からコンクリートまで強化するために、タスク計画、オブジェクトアフォーダンス、エンドエフェクターの軌道などの多次元情報をラベル付けする高品質の不均一なデータセットであるSharerobotを紹介します。
Sharerobotの多様性と精度は、3人の人間のアノテーターによって細心の注意を払って洗練されています。
このデータセットに基づいて、ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを開発し、マルチステージトレーニング戦略を利用し、ロボット操作機能を改善するために長いビデオと高解像度画像を組み込んでいます。
広範な実験は、ロボブレインがさまざまなロボットタスクにわたって最先端のパフォーマンスを達成し、ロボット脳の能力を向上させる可能性を強調することを示しています。

要約(オリジナル)

Recent advancements in Multimodal Large Language Models (MLLMs) have shown remarkable capabilities across various multimodal contexts. However, their application in robotic scenarios, particularly for long-horizon manipulation tasks, reveals significant limitations. These limitations arise from the current MLLMs lacking three essential robotic brain capabilities: Planning Capability, which involves decomposing complex manipulation instructions into manageable sub-tasks; Affordance Perception, the ability to recognize and interpret the affordances of interactive objects; and Trajectory Prediction, the foresight to anticipate the complete manipulation trajectory necessary for successful execution. To enhance the robotic brain’s core capabilities from abstract to concrete, we introduce ShareRobot, a high-quality heterogeneous dataset that labels multi-dimensional information such as task planning, object affordance, and end-effector trajectory. ShareRobot’s diversity and accuracy have been meticulously refined by three human annotators. Building on this dataset, we developed RoboBrain, an MLLM-based model that combines robotic and general multi-modal data, utilizes a multi-stage training strategy, and incorporates long videos and high-resolution images to improve its robotic manipulation capabilities. Extensive experiments demonstrate that RoboBrain achieves state-of-the-art performance across various robotic tasks, highlighting its potential to advance robotic brain capabilities.

arxiv情報

著者 Yuheng Ji,Huajie Tan,Jiayu Shi,Xiaoshuai Hao,Yuan Zhang,Hengyuan Zhang,Pengwei Wang,Mengdi Zhao,Yao Mu,Pengju An,Xinda Xue,Qinghang Su,Huaihai Lyu,Xiaolong Zheng,Jiaming Liu,Zhongyuan Wang,Shanghang Zhang
発行日 2025-02-28 17:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete はコメントを受け付けていません

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models

要約

離散オブジェクトの構成として視覚シーンをモデル化するオブジェクト中心(OC)表現は、系統的な構成一般化を実現し、推論を促進するために、さまざまな下流タスクで使用される可能性があります。
ただし、これらの主張はまだ経験的に徹底的に検証されていません。
最近、基礎モデルは、言語からコンピュータービジョンまで、多様なドメイン全体で比類のない機能を実証し、それらを幅広い計算タスクの将来の研究の潜在的な基礎として配置しています。
この論文では、シーンの正確な構成的理解が必要な、下流の視覚的質問応答(VQA)の表現学習に関する広範な実証研究を実施します。
OCモデルの利点とトレードオフ、および合成データと現実世界の両方のデータに関する大規模な事前訓練を受けた基礎モデルを含む代替アプローチを徹底的に調査し、最終的には両方のパラダイムの強みを活用する有望なパスを特定します。
600を超える下流のVQAモデルと15種類のアップストリーム表現を含む私たちの研究の拡張性も、コミュニティ全体に関心があると思われるいくつかの追加の洞察を提供します。

要約(オリジナル)

Object-centric (OC) representations, which model visual scenes as compositions of discrete objects, have the potential to be used in various downstream tasks to achieve systematic compositional generalization and facilitate reasoning. However, these claims have yet to be thoroughly validated empirically. Recently, foundation models have demonstrated unparalleled capabilities across diverse domains, from language to computer vision, positioning them as a potential cornerstone of future research for a wide range of computational tasks. In this paper, we conduct an extensive empirical study on representation learning for downstream Visual Question Answering (VQA), which requires an accurate compositional understanding of the scene. We thoroughly investigate the benefits and trade-offs of OC models and alternative approaches including large pre-trained foundation models on both synthetic and real-world data, ultimately identifying a promising path to leverage the strengths of both paradigms. The extensiveness of our study, encompassing over 600 downstream VQA models and 15 different types of upstream representations, also provides several additional insights that we believe will be of interest to the community at large.

arxiv情報

著者 Amir Mohammad Karimi Mamaghan,Samuele Papa,Karl Henrik Johansson,Stefan Bauer,Andrea Dittadi
発行日 2025-02-28 17:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models はコメントを受け付けていません

Language-Informed Hyperspectral Image Synthesis for Imbalanced-Small Sample Classification via Semi-Supervised Conditional Diffusion Model

要約

データ増強は、ハイパースペクトル画像分類(HSIC)の不均衡なスマルサンプルデータ(ISSD)問題に効果的に対処します。
ほとんどの方法論は潜在空間に機能を拡張しますが、テキスト駆動型の生成を活用して現実的で多様なサンプルを作成するものはほとんどありません。
最近、テキスト誘導拡散モデルは、自然画像合成のテキストプロンプトに基づいて、非常に多様で高品質の画像を生成する能力により、大きな注目を集めています。
これに動機付けられたこのペーパーでは、HSICのISSDに対処するための新しい言語に基づいたハイパースペクトル画像合成方法であるTXT2HSI-LDM(VAE)を提案しています。
提案されたアプローチでは、拡散モデルを使用します。これは、ガウスノイズを繰り返し除去して、テキストの説明に条件付けられたハイパースペクトルサンプルを生成します。
まず、ハイパースペクトルデータの高次元性に対処するために、ユニバーサル変動自動エンコーダー(VAE)は、データを低次元の潜在空間にマッピングするように設計されています。
第二に、半監視された拡散モデルは、非標識データを完全に活用するように設計されています。
ランダムポリゴン空間クリッピング(RPSC)および潜在的特徴の不確実性推定(LF-UE)を使用して、さまざまな混合度をシミュレートします。
第三に、VAEは、拡散モデルによって生成された潜在空間からHSIを入力として言語条件で解読します。
実験では、2D-PCA空間の統計的特性とデータ分布からの合成サンプルの有効性を完全に評価します。
さらに、ピクセルレベルで視覚的言語の交差時点が視覚化され、提案されたモデルが生成されたデータの空間レイアウトとジオメトリをキャプチャできることを証明します。
実験は、提案されたTXT2HSI-LDM(VAE)のパフォーマンスが、古典的なバックボーンモデル、最先端のCNN、および半教師の方法を超えることを示しています。

要約(オリジナル)

Data augmentation effectively addresses the imbalanced-small sample data (ISSD) problem in hyperspectral image classification (HSIC). While most methodologies extend features in the latent space, few leverage text-driven generation to create realistic and diverse samples. Recently, text-guided diffusion models have gained significant attention due to their ability to generate highly diverse and high-quality images based on text prompts in natural image synthesis. Motivated by this, this paper proposes Txt2HSI-LDM(VAE), a novel language-informed hyperspectral image synthesis method to address the ISSD in HSIC. The proposed approach uses a denoising diffusion model, which iteratively removes Gaussian noise to generate hyperspectral samples conditioned on textual descriptions. First, to address the high-dimensionality of hyperspectral data, a universal variational autoencoder (VAE) is designed to map the data into a low-dimensional latent space, which provides stable features and reduces the inference complexity of diffusion model. Second, a semi-supervised diffusion model is designed to fully take advantage of unlabeled data. Random polygon spatial clipping (RPSC) and uncertainty estimation of latent feature (LF-UE) are used to simulate the varying degrees of mixing. Third, the VAE decodes HSI from latent space generated by the diffusion model with the language conditions as input. In our experiments, we fully evaluate synthetic samples’ effectiveness from statistical characteristics and data distribution in 2D-PCA space. Additionally, visual-linguistic cross-attention is visualized on the pixel level to prove that our proposed model can capture the spatial layout and geometry of the generated data. Experiments demonstrate that the performance of the proposed Txt2HSI-LDM(VAE) surpasses the classical backbone models, state-of-the-art CNNs, and semi-supervised methods.

arxiv情報

著者 Yimin Zhu,Linlin Xu
発行日 2025-02-28 17:33:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Language-Informed Hyperspectral Image Synthesis for Imbalanced-Small Sample Classification via Semi-Supervised Conditional Diffusion Model はコメントを受け付けていません