Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving

要約

3D 物体検出は、自動運転車 (AV) における大きな可能性があるため、最近大きな注目を集めています。
深層学習ベースのオブジェクト検出器の成功は、大規模なアノテーション付きデータセットの利用可能性にかかっていますが、特に 3D バウンディング ボックス アノテーションの場合、コンパイルに時間と費用がかかります。
この研究では、アノテーションの負担を軽減する潜在的なソリューションとして、多様性に基づくアクティブ ラーニング (AL) を調査します。
注釈の予算が限られているため、人間が注釈を付けるために最も有益なフレームとオブジェクトのみが自動的に選択されます。
技術的には、AV データセットで提供されるマルチモーダル情報を利用し、選択されたサンプルの空間的および時間的多様性を強制する新しい取得関数を提案します。
フレームと 3D バウンディング ボックスの両方にアノテーションを付けるための現実的なコストが考慮される、現実的なアノテーション コスト測定の下で、提案された方法を他の AL 戦略に対してベンチマークします。
nuScenes データセットに対する提案手法の有効性を実証し、既存の AL 戦略を大幅に上回るパフォーマンスを示します。
コードは https://github.com/Linkon87/Exploring-Diversity-based-Active-Learning-for-3D-Object-Detection-in-Autonomous-Driving で入手できます。

要約(オリジナル)

3D object detection has recently received much attention due to its great potential in autonomous vehicle (AV). The success of deep learning based object detectors relies on the availability of large-scale annotated datasets, which is time-consuming and expensive to compile, especially for 3D bounding box annotation. In this work, we investigate diversity-based active learning (AL) as a potential solution to alleviate the annotation burden. Given limited annotation budget, only the most informative frames and objects are automatically selected for human to annotate. Technically, we take the advantage of the multimodal information provided in an AV dataset, and propose a novel acquisition function that enforces spatial and temporal diversity in the selected samples. We benchmark the proposed method against other AL strategies under realistic annotation cost measurement, where the realistic costs for annotating a frame and a 3D bounding box are both taken into consideration. We demonstrate the effectiveness of the proposed method on the nuScenes dataset and show that it outperforms existing AL strategies significantly. Code is available at https://github.com/Linkon87/Exploring-Diversity-based-Active-Learning-for-3D-Object-Detection-in-Autonomous-Driving

arxiv情報

著者 Jinpeng Lin,Zhihao Liang,Shengheng Deng,Lile Cai,Tao Jiang,Tianrui Li,Kui Jia,Xun Xu
発行日 2024-10-22 13:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving はコメントを受け付けていません

SPVSoAP3D: A Second-order Average Pooling Approach to enhance 3D Place Recognition in Horticultural Environments

要約

3D LiDAR ベースの場所認識は、都市環境では広く研究されていますが、農業環境ではまだ研究されていません。
都市環境とは異なり、レーザー光線の透過性を特徴とする園芸環境では、LiDAR スキャンがまばらで重複し、次善のジオメトリが生成されます。
この現象は、行内および行間の記述子のあいまいさにつながります。
この研究では、SPVSoAP3D を導入することでこの課題に対処します。SPVSoAP3D は、ボクセルベースの特徴抽出ネットワークと、記述子強化ステージによって補完される 2 次平均プーリング演算子に基づく集約手法を組み合わせた新しいモデリング アプローチです。
さらに、園芸環境に由来する 2 つの新しい配列を導入することにより、既存の HORTO-3DLM データセットを強化します。
新しく導入されたシーケンスと既存の HORTO-3DLM データセットの両方で相互検証プロトコルを利用して、OverlapTransformer、PointNetVLAD、LOGG3D-Net などの最先端 (SOTA) モデルに対する SPVSoAP3D のパフォーマンスを評価します。
この結果は、max 演算子や他の 1 次プーリング手法と比較して、average 演算子の方が園芸環境により適していることを示しています。
さらに、結果は記述子の強化段階によってもたらされた改善を強調しています。

要約(オリジナル)

3D LiDAR-based place recognition has been extensively researched in urban environments, yet it remains underexplored in agricultural settings. Unlike urban contexts, horticultural environments, characterized by their permeability to laser beams, result in sparse and overlapping LiDAR scans with suboptimal geometries. This phenomenon leads to intra- and inter-row descriptor ambiguity. In this work, we address this challenge by introducing SPVSoAP3D, a novel modeling approach that combines a voxel-based feature extraction network with an aggregation technique based on a second-order average pooling operator, complemented by a descriptor enhancement stage. Furthermore, we augment the existing HORTO-3DLM dataset by introducing two new sequences derived from horticultural environments. We evaluate the performance of SPVSoAP3D against state-of-the-art (SOTA) models, including OverlapTransformer, PointNetVLAD, and LOGG3D-Net, utilizing a cross-validation protocol on both the newly introduced sequences and the existing HORTO-3DLM dataset. The findings indicate that the average operator is more suitable for horticultural environments compared to the max operator and other first-order pooling techniques. Additionally, the results highlight the improvements brought by the descriptor enhancement stage.

arxiv情報

著者 T. Barros,C. Premebida,S. Aravecchia,C. Pradalier,U. J. Nunes
発行日 2024-10-22 13:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SPVSoAP3D: A Second-order Average Pooling Approach to enhance 3D Place Recognition in Horticultural Environments はコメントを受け付けていません

LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization

要約

ドメイン一般化 (DG) 手法は、複数のソース ドメインからのトレーニング データを使用して、目に見えないターゲット ドメインで良好なパフォーマンスを維持することを目的としています。
特定の状況では成功が見られますが、ほとんどのシナリオでベースラインを強化することは依然として困難です。
この作業では、ターゲット モデルをすべてのソース ドメインのエキスパートにして DG を改善することを目的とした、複数のエキスパートからの学習 (LFME) と呼ばれる、シンプルかつ効果的なフレームワークが導入されています。
具体的には、LFME は、推論で使用されるターゲット モデルを学習することに加えて、さまざまな領域に特化した複数の専門家もトレーニングします。その出力確率は、ターゲット モデルのロジットを正則化するだけで専門的なガイダンスを提供します。
フレームワークを深く掘り下げると、導入されたロジット正則化項が、ターゲット モデルがより多くの情報を利用できるようにし、トレーニング中に専門家からハード サンプルをマイニングできるようにする効果を暗黙的に提供していることがわかります。
さまざまな DG タスクのベンチマークに関する広範な実験により、LFME がベースラインに対して一貫して有益であり、既存の技術と同等のパフォーマンスを達成できることが実証されました。
コードは~\url{https://github.com/liangchen527/LFME}で入手できます。

要約(オリジナル)

Domain generalization (DG) methods aim to maintain good performance in an unseen target domain by using training data from multiple source domains. While success on certain occasions are observed, enhancing the baseline across most scenarios remains challenging. This work introduces a simple yet effective framework, dubbed learning from multiple experts (LFME), that aims to make the target model an expert in all source domains to improve DG. Specifically, besides learning the target model used in inference, LFME will also train multiple experts specialized in different domains, whose output probabilities provide professional guidance by simply regularizing the logit of the target model. Delving deep into the framework, we reveal that the introduced logit regularization term implicitly provides effects of enabling the target model to harness more information, and mining hard samples from the experts during training. Extensive experiments on benchmarks from different DG tasks demonstrate that LFME is consistently beneficial to the baseline and can achieve comparable performance to existing arts. Code is available at~\url{https://github.com/liangchen527/LFME}.

arxiv情報

著者 Liang Chen,Yong Zhang,Yibing Song,Zhiqiang Shen,Lingqiao Liu
発行日 2024-10-22 13:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization はコメントを受け付けていません

Auxiliary CycleGAN-guidance for Task-Aware Domain Translation from Duplex to Monoplex IHC Images

要約

生成モデルを使用すると、容易にトレーニングされたモデルを利用できるソース画像ドメインから、トレーニング中に目に見えないターゲット ドメインへの変換が可能になります。
サイクル生成敵対的ネットワーク (GAN) は十分に確立されていますが、関連するサイクルの一貫性制約は、2 つのドメイン間に可逆マッピングが存在することに依存しています。
ただし、これは、発色モノプレックスおよびデュプレックス免疫組織化学 (IHC) アッセイで染色された画像間の翻訳には当てはまりません。
後者から前者への変換に焦点を当て、新しいトレーニング デザインの導入を通じて、補助的な不対画像ドメインとして免疫蛍光 (IF) 画像のセットを利用する代替制約を提案します。
下流のセグメンテーションタスクに関する定量的および定性的な結果は、ベースラインアプローチと比較して、提案された方法の利点を示しています。

要約(オリジナル)

Generative models enable the translation from a source image domain where readily trained models are available to a target domain unseen during training. While Cycle Generative Adversarial Networks (GANs) are well established, the associated cycle consistency constrain relies on that an invertible mapping exists between the two domains. This is, however, not the case for the translation between images stained with chromogenic monoplex and duplex immunohistochemistry (IHC) assays. Focusing on the translation from the latter to the first, we propose – through the introduction of a novel training design, an alternative constrain leveraging a set of immunofluorescence (IF) images as an auxiliary unpaired image domain. Quantitative and qualitative results on a downstream segmentation task show the benefit of the proposed method in comparison to baseline approaches.

arxiv情報

著者 Nicolas Brieu,Nicolas Triltsch,Philipp Wortmann,Dominik Winter,Shashank Saran,Marlon Rebelatto,Günter Schmidt
発行日 2024-10-22 14:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, I.2.10, I.4.6, J.3 | Auxiliary CycleGAN-guidance for Task-Aware Domain Translation from Duplex to Monoplex IHC Images はコメントを受け付けていません

Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models

要約

この論文では、タイの太陽放射量マップを 30 分ごとに表示するオンライン プラットフォームを紹介します。
https://www.cusolarforecast.com で入手できます。
タイ全土の全球水平放射照度 (GHI) を推定する方法は、ひまわり 8 号衛星画像から抽出された雲指数、局所的に調整された Linke 濁度を含む Ineichen 晴天モデル、および機械学習モデルに依存しています。
この手法では、晴天の日射量、雲指数、MERRA-2 データベースから再分析された GHI および温度データ、および日時を、LightGBM、LSTM、Informer、Transformer などの GHI 推定モデルの入力として取得します。
これらは、2022 年から 2023 年の 1 年半にわたる 53 の地上局からの 15 分間の地上 GHI データを評価することにより、商用サービス X からの推定値でベンチマークされます。
結果は、4 つのモデルが競争力のあるパフォーマンスを持ち、サービス X を上回っていることを示しています。最高のモデルは LightGBM で、MAE は 78.58 W/平方メートル、RMSE は 118.97 W/平方メートルです。
タイ向けに再分析された MERRA-2 データを入手することは、導入するには経済的に現実的ではありません。
これらの機能を削除すると、Informer モデルは MAE で 78.67 W/sqm という優れたパフォーマンスを発揮します。
得られたパフォーマンスは、気候帯とデータの時間粒度を考慮することにより、既存の文献と一致します。
この地図は頻繁に更新される 93,000 グリッドを超える GHI の推定値を示しているため、この論文では地図全体を表示するための計算フレームワークについても説明しています。
GHI 推定プロセスにおける深層学習モデルの実行時のパフォーマンスをテストします。

要約(オリジナル)

This paper presents an online platform that shows Thailand’s solar irradiance map every 30 minutes. It is available at https://www.cusolarforecast.com. The methodology for estimating global horizontal irradiance (GHI) across Thailand relies on cloud index extracted from Himawari-8 satellite imagery, Ineichen clear-sky model with locally-tuned Linke turbidity, and machine learning models. The methods take clear-sky irradiance, cloud index, re-analyzed GHI and temperature data from the MERRA-2 database, and date-time as inputs for GHI estimation models, including LightGBM, LSTM, Informer, and Transformer. These are benchmarked with the estimate from a commercial service X by evaluating 15-minute ground GHI data from 53 ground stations over 1.5 years from 2022-2023. The results show that the four models have competitive performances and outperform the service X. The best model is LightGBM, with an MAE of 78.58 W/sqm and RMSE of 118.97 W/sqm. Obtaining re-analyzed MERRA-2 data for Thailand is not economically feasible for deployment. When removing these features, the Informer model has a winning performance of 78.67 W/sqm in MAE. The obtained performance aligns with existing literature by taking the climate zone and time granularity of data into consideration. As the map shows an estimate of GHI over 93,000 grids with a frequent update, the paper also describes a computational framework for displaying the entire map. It tests the runtime performance of deep learning models in the GHI estimation process.

arxiv情報

著者 Suwichaya Suwanwimolkul,Natanon Tongamrak,Nuttamon Thungka,Naebboon Hoonchareon,Jitkomut Songsiri
発行日 2024-10-22 14:09:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph | Developing a Thailand solar irradiance map using Himawari-8 satellite imageries and deep learning models はコメントを受け付けていません

RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance

要約

ユーザーが提供した参照画像から同一性を保持する画像を生成するために拡散モデルをカスタマイズすることは、興味深い新しい問題です。
一般に普及しているアプローチでは、アイデンティティの保存を実現するために広範なドメイン固有のイメージでトレーニングする必要があるため、さまざまなユースケースにわたる柔軟性に欠けています。
この問題に対処するために、私たちは、既存の分類子を使用して拡散モデルを操作するトレーニング不要の手法である分類子ガイダンスを利用して、パーソナライズされた画像を生成します。
私たちの調査では、最近の修正されたフロー フレームワークに基づいて、特別な分類子を必要とするバニラ分類子ガイダンスの主な制限が、シンプルな固定小数点ソリューションで解決でき、既製の画像弁別器を使用して柔軟なパーソナライゼーションが可能になることが示されています。
さらに、その解法手順は、参照流れ軌跡に固定されている場合に安定しており、収束が保証されていることが証明されています。
派生したメソッドは、さまざまな既製の画像弁別器を使用して修正されたフローに実装され、人間の顔、生きている被写体、および特定のオブジェクトに対して有利なパーソナライゼーション結果を提供します。
コードは https://github.com/feifeiobama/RectifID で入手できます。

要約(オリジナル)

Customizing diffusion models to generate identity-preserving images from user-provided reference images is an intriguing new problem. The prevalent approaches typically require training on extensive domain-specific images to achieve identity preservation, which lacks flexibility across different use cases. To address this issue, we exploit classifier guidance, a training-free technique that steers diffusion models using an existing classifier, for personalized image generation. Our study shows that based on a recent rectified flow framework, the major limitation of vanilla classifier guidance in requiring a special classifier can be resolved with a simple fixed-point solution, allowing flexible personalization with off-the-shelf image discriminators. Moreover, its solving procedure proves to be stable when anchored to a reference flow trajectory, with a convergence guarantee. The derived method is implemented on rectified flow with different off-the-shelf image discriminators, delivering advantageous personalization results for human faces, live subjects, and certain objects. Code is available at https://github.com/feifeiobama/RectifID.

arxiv情報

著者 Zhicheng Sun,Zhenhao Yang,Yang Jin,Haozhe Chi,Kun Xu,Kun Xu,Liwei Chen,Hao Jiang,Yang Song,Kun Gai,Yadong Mu
発行日 2024-10-22 14:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance はコメントを受け付けていません

DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain

要約

この論文では、長年にわたって行われてきた単眼の奥行き推定タスクのための新しいフレームワークである DCDepth を紹介します。
空間領域における従来のピクセルごとの深度推定を超えて、私たちのアプローチは、離散コサイン領域に変換した後に深度パッチの周波数係数を推定します。
この独自の定式化により、各パッチ内の局所的な深度相関のモデリングが可能になります。
重要なのは、周波数変換により、深度情報がさまざまな周波数成分に分離され、低周波成分がコアシーン構造をカプセル化し、高周波成分がより詳細な側面を詳細に表現することです。
この分解は、グローバル シーン コンテキストを確立するための低周波成分の予測から始まり、高周波成分の予測を通じて局所的な詳細を連続的に改良する、当社の漸進的戦略の基礎を形成します。
NYU-Depth-V2、TOFDC、KITTI データセットに対して包括的な実験を実施し、DCDepth の最先端のパフォーマンスを実証します。
コードは https://github.com/w2kun/DCDepth で入手できます。

要約(オリジナル)

In this paper, we introduce DCDepth, a novel framework for the long-standing monocular depth estimation task. Moving beyond conventional pixel-wise depth estimation in the spatial domain, our approach estimates the frequency coefficients of depth patches after transforming them into the discrete cosine domain. This unique formulation allows for the modeling of local depth correlations within each patch. Crucially, the frequency transformation segregates the depth information into various frequency components, with low-frequency components encapsulating the core scene structure and high-frequency components detailing the finer aspects. This decomposition forms the basis of our progressive strategy, which begins with the prediction of low-frequency components to establish a global scene context, followed by successive refinement of local details through the prediction of higher-frequency components. We conduct comprehensive experiments on NYU-Depth-V2, TOFDC, and KITTI datasets, and demonstrate the state-of-the-art performance of DCDepth. Code is available at https://github.com/w2kun/DCDepth.

arxiv情報

著者 Kun Wang,Zhiqiang Yan,Junkai Fan,Wanlu Zhu,Xiang Li,Jun Li,Jian Yang
発行日 2024-10-22 14:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain はコメントを受け付けていません

Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

要約

ビジョンベースのセマンティック シーン補完 (SSC) は、さまざまな 3D 認識タスクに広く応用されているため、多くの注目を集めています。
既存の疎から密へのアプローチは通常、さまざまな入力画像にわたってコンテキストに依存しない共有クエリを使用しますが、異なる入力の焦点領域が変化するため画像間の区別を捕捉できず、クロスアテンションによる無向の特徴集約が発生する可能性があります。
さらに、深度情報が存在しないと、同じ 2D 位置または特徴マップ内の同様のサンプリング ポイントを共有する画像平面上に点が投影され、深度の曖昧さが生じる可能性があります。
この論文では、新しいコンテキストとジオメトリを認識したボクセル トランスフォーマーを紹介します。
コンテキスト認識クエリ ジェネレーターを利用して、個々の入力画像に合わせたコンテキスト依存クエリを初期化し、その固有の特性を効果的にキャプチャし、対象領域内の情報を集約します。
さらに、変形可能なクロスアテンションを 2D ピクセル空間から 3D ピクセル空間に拡張し、深度座標に基づいて類似した画像座標を持つ点を区別できるようにします。
このモジュールに基づいて、CGFormer という名前のニューラル ネットワークを導入して、セマンティック シーンの完成を実現します。
同時に、CGFormer は複数の 3D 表現 (つまり、ボクセルと TPV) を利用して、ローカルとグローバルの両方の観点から、変換された 3D ボリュームのセマンティックおよび幾何学的表現能力を強化します。
実験結果は、CGFormer が SemanticKITTI および SSCBench-KITTI-360 ベンチマークで最先端のパフォーマンスを達成し、それぞれ 16.87 と 20.05 の mIoU、および 45.99 と 48.07 の IoU を達成していることを示しています。
驚くべきことに、CGFormer は、時間画像を入力として使用するアプローチや、はるかに大規模な画像バックボーン ネットワークを使用するアプローチよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.

arxiv情報

著者 Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen
発行日 2024-10-22 14:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Context and Geometry Aware Voxel Transformer for Semantic Scene Completion はコメントを受け付けていません

Multi Kernel Estimation based Object Segmentation

要約

この論文では、従来画像全体に対して単一のカーネルを推定する KernelGAN アルゴリズムを強化することによる、マルチカーネル推定の新しいアプローチを紹介します。
Multi-KernelGAN を導入します。これは、オブジェクト セグメンテーション マスクに基づいて 2 つの異なるカーネルを推定することにより、KernelGAN の機能を拡張します。
私たちのアプローチは、テクスチャ ベースのパッチ高速フーリエ変換 (FFT) 計算、詳細ベースのセグメンテーション、YOLOv8 とセグメント エニシング モデル (SAM) を使用した深層学習ベースのオブジェクト セグメンテーションという 3 つの異なる方法を通じて検証されています。
これらの方法の中で、YOLO と SAM を組み合わせると、カーネル推定に最良の結果が得られます。
実験結果は、私たちのマルチカーネル推定手法が超解像タスクにおいて従来のシングルカーネル手法よりも優れていることを示しています。

要約(オリジナル)

This paper presents a novel approach for multi-kernel estimation by enhancing the KernelGAN algorithm, which traditionally estimates a single kernel for the entire image. We introduce Multi-KernelGAN, which extends KernelGAN’s capabilities by estimating two distinct kernels based on object segmentation masks. Our approach is validated through three distinct methods: texture-based patch Fast Fourier Transform (FFT) calculation, detail-based segmentation, and deep learning-based object segmentation using YOLOv8 and the Segment Anything Model (SAM). Among these methods, the combination of YOLO and SAM yields the best results for kernel estimation. Experimental results demonstrate that our multi-kernel estimation technique outperforms conventional single-kernel methods in super-resolution tasks.

arxiv情報

著者 Haim Goldfisher,Asaf Yekutiel
発行日 2024-10-22 14:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi Kernel Estimation based Object Segmentation はコメントを受け付けていません

Neuronal Competition Groups with Supervised STDP for Spike-Based Classification

要約

スパイク タイミング依存可塑性 (STDP) は、ニューロモーフィック ハードウェア上でのスパイキング ニューラル ネットワーク (SNN) のローカル トレーニングにおけるバックプロパゲーションの有望な代替手段です。
STDP を使用すると、SNN は特徴抽出用の教師なし STDP と分類用の教師あり STDP を組み合わせて分類タスクに対処できます。
教師なし STDP は通常、Winner-Takes-All (WTA) 競争で使用され、明確なパターンを学習します。
しかし、監視付きSTDP分類のWTAは、不均衡な競争の課題に直面しています。
この論文では、ファーストスパイクコーディングと教師ありSTDPトレーニングを採用したスパイキング分類層でWTA競技を効果的に実装する方法を提案します。
クラスごとにさまざまなパターンの学習を促進することで分類機能を向上させるアーキテクチャである Neuronal Competition Group (NCG) を紹介します。
NCG は、特定のクラスにマッピングされたニューロンのグループであり、クラス内 WTA と 2 コンパートメントしきい値に基づく新しい競合制御メカニズムを実装しています。
私たちは、提案したアーキテクチャを、最先端の教師付き STDP ルールでトレーニングされたスパイキング分類層に組み込みます。
2 つの異なる教師なし特徴抽出器を使用することで、CIFAR-10 や CIFAR-100 などの画像認識データセットの精度が大幅に向上しました。
私たちは、競争の規制メカニズムがバランスの取れた競争と改善された階級分離を確保するために重要であることを示します。

要約(オリジナル)

Spike Timing-Dependent Plasticity (STDP) is a promising substitute to backpropagation for local training of Spiking Neural Networks (SNNs) on neuromorphic hardware. STDP allows SNNs to address classification tasks by combining unsupervised STDP for feature extraction and supervised STDP for classification. Unsupervised STDP is usually employed with Winner-Takes-All (WTA) competition to learn distinct patterns. However, WTA for supervised STDP classification faces unbalanced competition challenges. In this paper, we propose a method to effectively implement WTA competition in a spiking classification layer employing first-spike coding and supervised STDP training. We introduce the Neuronal Competition Group (NCG), an architecture that improves classification capabilities by promoting the learning of various patterns per class. An NCG is a group of neurons mapped to a specific class, implementing intra-class WTA and a novel competition regulation mechanism based on two-compartment thresholds. We incorporate our proposed architecture into spiking classification layers trained with state-of-the-art supervised STDP rules. On top of two different unsupervised feature extractors, we obtain significant accuracy improvements on image recognition datasets such as CIFAR-10 and CIFAR-100. We show that our competition regulation mechanism is crucial for ensuring balanced competition and improved class separation.

arxiv情報

著者 Gaspard Goupy,Pierre Tirilly,Ioan Marius Bilasco
発行日 2024-10-22 14:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Neuronal Competition Groups with Supervised STDP for Spike-Based Classification はコメントを受け付けていません