AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization

要約

1485年から現在まで、19世紀後半から20世紀初頭に焦点を当てた、主にチェコとドイツ語の歴史的文書から7550ページの小説コレクションであるAnnopage Datasetを紹介します。
データセットは、ドキュメントレイアウト分析とオブジェクト検出の研究をサポートするように設計されています。
各ページには、画像ドキュメント処理のチェコの方法論に従って、画像、マップ、装飾要素、またはチャートなどの25のカテゴリの非テキスト要素の要素の要素を表す軸に並べられた境界ボックス(AABB)が注釈されています。
注釈は、正確さと一貫性を確保するために、専門の図書館員によって作成されました。
また、データセットには、さまざまな、主に歴史的なドキュメントデータセットのページが組み込まれており、変動性を高め、継続性を維持しています。
データセットは開発およびテストサブセットに分割され、テストセットはカテゴリの分布を維持するために慎重に選択されます。
YoloおよびDetrオブジェクト検出器を使用してベースラインの結果を提供し、将来の研究の基準点を提供します。
Annopage Datasetは、Zenodo(https://doi.org/10.5281/zenodo.12788419)で公開されており、ヨロ形式での地上注釈が付けられています。

要約(オリジナル)

We introduce the AnnoPage Dataset, a novel collection of 7550 pages from historical documents, primarily in Czech and German, spanning from 1485 to the present, focusing on the late 19th and early 20th centuries. The dataset is designed to support research in document layout analysis and object detection. Each page is annotated with axis-aligned bounding boxes (AABB) representing elements of 25 categories of non-textual elements, such as images, maps, decorative elements, or charts, following the Czech Methodology of image document processing. The annotations were created by expert librarians to ensure accuracy and consistency. The dataset also incorporates pages from multiple, mainly historical, document datasets to enhance variability and maintain continuity. The dataset is divided into development and test subsets, with the test set carefully selected to maintain the category distribution. We provide baseline results using YOLO and DETR object detectors, offering a reference point for future research. The AnnoPage Dataset is publicly available on Zenodo (https://doi.org/10.5281/zenodo.12788419), along with ground-truth annotations in YOLO format.

arxiv情報

著者 Martin Kišš,Michal Hradiš,Martina Dvořáková,Václav Jiroušek,Filip Kersch
発行日 2025-03-28 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | AnnoPage Dataset: Dataset of Non-Textual Elements in Documents with Fine-Grained Categorization はコメントを受け付けていません

Leveraging Expert Input for Robust and Explainable AI-Assisted Lung Cancer Detection in Chest X-rays

要約

ディープラーニングモデルは、特に胸部X線などの医療イメージモダリティを介して肺がんを検出する際に、AI支援医療診断を進めるための重要な可能性を示しています。
しかし、これらのモデルのブラックボックスの性質は、その解釈可能性と信頼性に課題をもたらし、臨床診療における採用を制限します。
この研究では、InceptionV3に基づいた高性能肺がん検出モデルの解釈可能性と堅牢性の両方を調べ、胸部X線と放射線レポートの公開データセットを利用しています。
事後および前馬術アプローチの両方を含む複数の説明可能なAI(XAI)技術の臨床的有用性を評価し、既存の方法が臨床的に関連する説明を提供しないことが多いことを発見し、専門家の放射線科医の評価からの矛盾と発散を示します。
これらの制限に対処するために、診断固有の臨床概念を定義するために放射線科医と協力し、ボトルネックの概念を活用する専門家主導のアプローチであるClinicxaiを開発しました。
Clinicxaiは、臨床医の実用的な要件と密接に整合し、診断の精度を維持しながら、臨床的に意味のある説明を生成しました。
また、広く利用されている一連の敵対的な攻撃の両方にさらされることにより、元のInceptionV3モデルと比較して、Clinicxaiの堅牢性を評価します。
私たちの分析は、Clinicxaiが敵対的な摂動に対して非常に大きな回復力を示していることを示しています。
これらの調査結果は、医療診断のための解釈可能で堅牢なAIシステムの設計にドメインの専門知識を組み込むことの重要性を強調し、ヘルスケアにおけるより信頼できる効果的なAIソリューションへの道を開いています。

要約(オリジナル)

Deep learning models show significant potential for advancing AI-assisted medical diagnostics, particularly in detecting lung cancer through medical image modalities such as chest X-rays. However, the black-box nature of these models poses challenges to their interpretability and trustworthiness, limiting their adoption in clinical practice. This study examines both the interpretability and robustness of a high-performing lung cancer detection model based on InceptionV3, utilizing a public dataset of chest X-rays and radiological reports. We evaluate the clinical utility of multiple explainable AI (XAI) techniques, including both post-hoc and ante-hoc approaches, and find that existing methods often fail to provide clinically relevant explanations, displaying inconsistencies and divergence from expert radiologist assessments. To address these limitations, we collaborated with a radiologist to define diagnosis-specific clinical concepts and developed ClinicXAI, an expert-driven approach leveraging the concept bottleneck methodology. ClinicXAI generated clinically meaningful explanations which closely aligned with the practical requirements of clinicians while maintaining high diagnostic accuracy. We also assess the robustness of ClinicXAI in comparison to the original InceptionV3 model by subjecting both to a series of widely utilized adversarial attacks. Our analysis demonstrates that ClinicXAI exhibits significantly greater resilience to adversarial perturbations. These findings underscore the importance of incorporating domain expertise into the design of interpretable and robust AI systems for medical diagnostics, paving the way for more trustworthy and effective AI solutions in healthcare.

arxiv情報

著者 Amy Rafferty,Rishi Ramaesh,Ajitha Rajan
発行日 2025-03-28 15:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Leveraging Expert Input for Robust and Explainable AI-Assisted Lung Cancer Detection in Chest X-rays はコメントを受け付けていません

Deterministic Medical Image Translation via High-fidelity Brownian Bridges

要約

最近の研究では、拡散モデルは、生成的敵対ネットワーク(GAN)と比較した場合、優れた合成画像を生成することが示されています。
しかし、それらの出力はしばしば非決定的であり、固有のランダム性のために地上の真理に対する高い忠実度を欠いています。
この論文では、決定論的な医療イメージ翻訳のために、新しい忠実度ブラウンブリッジモデル(HIFI-BBRG)を提案します。
私たちのモデルは、2つの明確でありながら相互に有益なマッピングの2つのマッピングと再構成マッピングです。
ブラウンブリッジトレーニングプロセスは、再建マッピングにおける忠実な損失と敵対的なトレーニングによって導かれます。
これにより、翻訳された画像を元のフォームに正確に逆転させることができ、それにより、グラウンドトゥルースに高い忠実度を備えた一貫した翻訳を実現できます。
複数のデータセットでの広範な実験では、HIFI-BBRGがマルチモーダル画像翻訳とマルチイメージの超解像度の最先端の方法よりも優れていることが示されています。

要約(オリジナル)

Recent studies have shown that diffusion models produce superior synthetic images when compared to Generative Adversarial Networks (GANs). However, their outputs are often non-deterministic and lack high fidelity to the ground truth due to the inherent randomness. In this paper, we propose a novel High-fidelity Brownian bridge model (HiFi-BBrg) for deterministic medical image translations. Our model comprises two distinct yet mutually beneficial mappings: a generation mapping and a reconstruction mapping. The Brownian bridge training process is guided by the fidelity loss and adversarial training in the reconstruction mapping. This ensures that translated images can be accurately reversed to their original forms, thereby achieving consistent translations with high fidelity to the ground truth. Our extensive experiments on multiple datasets show HiFi-BBrg outperforms state-of-the-art methods in multi-modal image translation and multi-image super-resolution.

arxiv情報

著者 Qisheng He,Nicholas Summerfield,Peiyong Wang,Carri Glide-Hurst,Ming Dong
発行日 2025-03-28 15:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Deterministic Medical Image Translation via High-fidelity Brownian Bridges はコメントを受け付けていません

CoRPA: Adversarial Image Generation for Chest X-rays Using Concept Vector Perturbations and Generative Models

要約

医療画像分類タスクのディープラーニングモデルは、AIアシストされた診断ツールで広く実装されており、診断の精度を高め、臨床医のワークロードを減らし、患者の転帰を改善することを目指しています。
しかし、敵対的な攻撃に対する彼らの脆弱性は、患者の安全に重大なリスクをもたらします。
現在の攻撃方法論は、モデルクエリやピクセル値の摂動などの一般的な手法を使用して、モデルを欺くように設計された敵対的な例を生成します。
これらのアプローチは、見逃された臨床的特徴に起因する臨床エラーのユニークな特性に適切に対処できない場合があります。
医療イメージングドメインに合わせた臨床的に焦点を当てたブラックボックス敵対的な攻撃フレームワークであるコンセプトベースのレポート摂動攻撃(CORPA)を提案します。
Corpaは臨床概念を活用して、現実的な臨床的誤診シナリオを密接に反映する敵対的な放射線報告と画像を生成します。
胸部X線と放射線レポートのMIMIC-CXR-JPGデータセットを使用して、CORPAの有用性を実証します。
私たちの評価は、Corpaの臨床的に焦点を当てた摂動にさらされると、従来の敵対的攻撃に強い回復力を示す深い学習モデルが堅牢性が著しく低いことを明らかにしています。
これは、医療AIシステムにおけるドメイン固有の脆弱性に対処することの重要性を強調しています。
専門化された敵対的攻撃フレームワークを導入することにより、この研究は、医療における堅牢で現実世界の準備ができたAIモデルを開発するための基盤を提供し、ハイステークス臨床環境での安全で信頼できる展開を確保します。

要約(オリジナル)

Deep learning models for medical image classification tasks are becoming widely implemented in AI-assisted diagnostic tools, aiming to enhance diagnostic accuracy, reduce clinician workloads, and improve patient outcomes. However, their vulnerability to adversarial attacks poses significant risks to patient safety. Current attack methodologies use general techniques such as model querying or pixel value perturbations to generate adversarial examples designed to fool a model. These approaches may not adequately address the unique characteristics of clinical errors stemming from missed or incorrectly identified clinical features. We propose the Concept-based Report Perturbation Attack (CoRPA), a clinically-focused black-box adversarial attack framework tailored to the medical imaging domain. CoRPA leverages clinical concepts to generate adversarial radiological reports and images that closely mirror realistic clinical misdiagnosis scenarios. We demonstrate the utility of CoRPA using the MIMIC-CXR-JPG dataset of chest X-rays and radiological reports. Our evaluation reveals that deep learning models exhibiting strong resilience to conventional adversarial attacks are significantly less robust when subjected to CoRPA’s clinically-focused perturbations. This underscores the importance of addressing domain-specific vulnerabilities in medical AI systems. By introducing a specialized adversarial attack framework, this study provides a foundation for developing robust, real-world-ready AI models in healthcare, ensuring their safe and reliable deployment in high-stakes clinical environments.

arxiv情報

著者 Amy Rafferty,Rishi Ramaesh,Ajitha Rajan
発行日 2025-03-28 15:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | CoRPA: Adversarial Image Generation for Chest X-rays Using Concept Vector Perturbations and Generative Models はコメントを受け付けていません

LIM: Large Interpolator Model for Dynamic Reconstruction

要約

ビデオデータからの動的資産の再構築は、コンピュータービジョンおよびグラフィックスのタスクにおいて多くの人々の中心です。
既存の4D再構成アプローチは、カテゴリ固有のモデルまたは最適化ベースの遅い方法によって制限されます。
最近の大規模な再構成モデ​​ル(LRM)に触発されて、時間をかけて暗黙の3D表現を補間するために、新しい因果整合性喪失に導かれた、変圧器ベースのフィードフォワードソリューションである大規模な補間モデル(LIM)を提示します。
$ t_0 $と$ $ $の暗黙の3D表現を考えると、LIMは[T_0、T_1] $の連続時間$ t \で変形した形状を生成し、高品質の補間フレームを数秒で配信します。
さらに、LIMは時間を越えて明示的なメッシュ追跡を可能にし、既存の生産パイプラインに統合できる一貫したUVテクスチャメッシュシーケンスを生成します。
また、LIMを拡散ベースのMultiViewジェネレーターと組み合わせて使用​​して、Monocularビデオから動的な4D再構成を作成します。
さまざまな動的データセットでLIMを評価し、画像空間補間法(フィルムなど)と直接のトリプル線形補間とのベンチマークを評価し、明確な利点を示します。
要約すると、LIMは、多様なカテゴリにわたって高速追跡された4Dアセット再構築が可能な最初のフィードフォワードモデルです。

要約(オリジナル)

Reconstructing dynamic assets from video data is central to many in computer vision and graphics tasks. Existing 4D reconstruction approaches are limited by category-specific models or slow optimization-based methods. Inspired by the recent Large Reconstruction Model (LRM), we present the Large Interpolation Model (LIM), a transformer-based feed-forward solution, guided by a novel causal consistency loss, for interpolating implicit 3D representations across time. Given implicit 3D representations at times $t_0$ and $t_1$, LIM produces a deformed shape at any continuous time $t\in[t_0,t_1]$, delivering high-quality interpolated frames in seconds. Furthermore, LIM allows explicit mesh tracking across time, producing a consistently uv-textured mesh sequence ready for integration into existing production pipelines. We also use LIM, in conjunction with a diffusion-based multiview generator, to produce dynamic 4D reconstructions from monocular videos. We evaluate LIM on various dynamic datasets, benchmarking against image-space interpolation methods (e.g., FiLM) and direct triplane linear interpolation, and demonstrate clear advantages. In summary, LIM is the first feed-forward model capable of high-speed tracked 4D asset reconstruction across diverse categories.

arxiv情報

著者 Remy Sabathier,Niloy J. Mitra,David Novotny
発行日 2025-03-28 15:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LIM: Large Interpolator Model for Dynamic Reconstruction はコメントを受け付けていません

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

要約

大規模な3Dテキストコーパスの欠如により、最近の作品により、視覚障害モデル(VLMS)からオープンボキャブラリーの知識を蒸留するようになりました。
ただし、これらの方法は通常、単一のVLMに依存して、共通言語空間内の3Dモデルの特徴スペースを調整します。これにより、さまざまな基礎モデルにカプセル化された多様な空間およびセマンティック機能を活用する3Dモデルの可能性が制限されます。
このホワイトペーパーでは、CUA-O3Dと呼ばれるオープンボキャブラリー3Dシーンを理解するためのクロスモーダルおよび不確実性を意識した集積を提案します。
さらに、これらのモデルからの不均一な2D特徴の埋め込みを適応的に蒸留および調和させるための決定論的な不確実性の推定を導入します。
私たちの方法では、2つの重要な課題に対処します。(1)空間的に認識されたビジョン基礎モデルの幾何学的知識とともにVLMのセマンティックプリエアを組み込むこと、および(2)多様なセマンティックおよび幾何学的感受性を介したモデル固有の不確実性を捉えて、トレーニング中の独立した表現を再現するのに役立つモデル固有の不確実性をキャプチャするために使用します。
scannetv2およびmatterport3dでの広範な実験は、私たちの方法がオープンボキャブラリーセグメンテーションを進めるだけでなく、堅牢なクロスドメインアライメントと競争力のある空間認識能力を達成することを示しています。
コードは、https://github.com/tyroneli/cua_o3dで入手できます。

要約(オリジナル)

The lack of a large-scale 3D-text corpus has led recent works to distill open-vocabulary knowledge from vision-language models (VLMs). However, these methods typically rely on a single VLM to align the feature spaces of 3D models within a common language space, which limits the potential of 3D models to leverage the diverse spatial and semantic capabilities encapsulated in various foundation models. In this paper, we propose Cross-modal and Uncertainty-aware Agglomeration for Open-vocabulary 3D Scene Understanding dubbed CUA-O3D, the first model to integrate multiple foundation models-such as CLIP, DINOv2, and Stable Diffusion-into 3D scene understanding. We further introduce a deterministic uncertainty estimation to adaptively distill and harmonize the heterogeneous 2D feature embeddings from these models. Our method addresses two key challenges: (1) incorporating semantic priors from VLMs alongside the geometric knowledge of spatially-aware vision foundation models, and (2) using a novel deterministic uncertainty estimation to capture model-specific uncertainties across diverse semantic and geometric sensitivities, helping to reconcile heterogeneous representations during training. Extensive experiments on ScanNetV2 and Matterport3D demonstrate that our method not only advances open-vocabulary segmentation but also achieves robust cross-domain alignment and competitive spatial perception capabilities. The code will be available at: https://github.com/TyroneLi/CUA_O3D.

arxiv情報

著者 Jinlong Li,Cristiano Saltori,Fabio Poiesi,Nicu Sebe
発行日 2025-03-28 15:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding はコメントを受け付けていません

MO-CTranS: A unified multi-organ segmentation model learning from multiple heterogeneously labelled datasets

要約

マルチオルガンセグメンテーションは、多くの臨床タスクで最も重要な重要性を保持しています。
実際には、大規模な完全に注釈付きのデータセットと比較して、複数の小さなデータセットがよりアクセスしやすく、臓器は一貫してラベル付けされていません。
通常、これらのデータセットごとに個々のモデルがトレーニングされますが、これはモデル学習にデータを使用する効果的な方法ではありません。
ラベルの競合とデータの不均衡の問題により、いくつかの部分的にラベル付けされたデータセットから堅牢に学習できる単一のモデルをトレーニングすることは困難なままです。
Mo-Ctransを提案します。そのような問題を克服できる単一のモデルです。
MO-CTRANSには、CNNベースのエンコーダーとトランスベースのデコーダーが含まれており、マルチ解像度で接続されています。
タスク固有のトークンは、ラベルの不一致を区別するのに役立つデコーダーに導入されています。
私たちの方法は評価され、いくつかのベースラインモデルと、異なるビュー(つまり、軸および冠状)で取得され、異なる臓器(すなわち肝臓、腎臓、脾臓)で注釈が付けられた腹部MRIデータセットの最先端(SOTA)ソリューションと比較されました。
私たちの方法は、比較方法よりも優れたパフォーマンス(ほとんどが統計的に有意でした)を達成しました。
githubリンク:https://github.com/naisops/mo-ctrans。

要約(オリジナル)

Multi-organ segmentation holds paramount significance in many clinical tasks. In practice, compared to large fully annotated datasets, multiple small datasets are often more accessible and organs are not labelled consistently. Normally, an individual model is trained for each of these datasets, which is not an effective way of using data for model learning. It remains challenging to train a single model that can robustly learn from several partially labelled datasets due to label conflict and data imbalance problems. We propose MO-CTranS: a single model that can overcome such problems. MO-CTranS contains a CNN-based encoder and a Transformer-based decoder, which are connected in a multi-resolution manner. Task-specific tokens are introduced in the decoder to help differentiate label discrepancies. Our method was evaluated and compared to several baseline models and state-of-the-art (SOTA) solutions on abdominal MRI datasets that were acquired in different views (i.e. axial and coronal) and annotated for different organs (i.e. liver, kidney, spleen). Our method achieved better performance (most were statistically significant) than the compared methods. Github link: https://github.com/naisops/MO-CTranS.

arxiv情報

著者 Zhendi Gong,Susan Francis,Eleanor Cox,Stamatios N. Sotiropoulos,Dorothee P. Auer,Guoping Qiu,Andrew P. French,Xin Chen
発行日 2025-03-28 16:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2 | MO-CTranS: A unified multi-organ segmentation model learning from multiple heterogeneously labelled datasets はコメントを受け付けていません

Image Decomposition with G-norm Weighted by Total Symmetric Variation

要約

この論文では、画像をそれぞれの漫画とテクスチャパーツに分解するための新しい変動モデルを提案します。
私たちのモデルは、総対称変動(TSV)によって、任意の境界変動(BV)画像の特定の非ローカルな特徴を特徴付けます。
TSVが地域の境界を特定するのに効果的であることを実証します。
このプロパティに基づいて、加重マイヤーの$ g $ -normを導入して、輪郭の端を含めることなくテクスチャインテリアを識別します。
境界TSVを備えたBV画像の場合、提案されたモデルがソリューションを認めていることを示します。
さらに、関連する非凸最適化問題に取り組むために、オペレーター分解に基づいて高速アルゴリズムを設計します。
この方法のパフォーマンスは、一連の数値実験によって検証されます。

要約(オリジナル)

In this paper, we propose a novel variational model for decomposing images into their respective cartoon and texture parts. Our model characterizes certain non-local features of any Bounded Variation (BV) image by its Total Symmetric Variation (TSV). We demonstrate that TSV is effective in identifying regional boundaries. Based on this property, we introduce a weighted Meyer’s $G$-norm to identify texture interiors without including contour edges. For BV images with bounded TSV, we show that the proposed model admits a solution. Additionally, we design a fast algorithm based on operator-splitting to tackle the associated non-convex optimization problem. The performance of our method is validated by a series of numerical experiments.

arxiv情報

著者 Roy Y. He,Martin Huska,Hao Liu
発行日 2025-03-28 16:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image Decomposition with G-norm Weighted by Total Symmetric Variation はコメントを受け付けていません

RELD: Regularization by Latent Diffusion Models for Image Restoration

要約

近年、拡散モデルは深い生成モデリングにおける新しい最先端のモデルになり、生成的敵対的ネットワークの長年の支配を終わらせました。
除去の原則による正則化に触発されて、脱化タスクのために訓練された潜在的な拡散モデルを統合し、半尺度分割を使用して分散フレームワークに統合するアプローチを紹介し、その正規化プロパティを活用します。
このアプローチは、さまざまなイメージングアプリケーションで簡単に満たすことができる適切な条件下で、高品質の結果を達成しながら計算コストを削減できます。
次に、潜在的な除去(RELD)による正則化と呼ばれる提案された戦略は、画像の除去、脱bluring、および超解像度のタスクについて、自然画像のデータセットでテストされます。
数値実験は、RELDが他の最先端の方法と競争力があることを示しています。特に、知覚品質メトリックを使用して評価された場合、顕著な結果を達成します。

要約(オリジナル)

In recent years, Diffusion Models have become the new state-of-the-art in deep generative modeling, ending the long-time dominance of Generative Adversarial Networks. Inspired by the Regularization by Denoising principle, we introduce an approach that integrates a Latent Diffusion Model, trained for the denoising task, into a variational framework using Half-Quadratic Splitting, exploiting its regularization properties. This approach, under appropriate conditions that can be easily met in various imaging applications, allows for reduced computational cost while achieving high-quality results. The proposed strategy, called Regularization by Latent Denoising (RELD), is then tested on a dataset of natural images, for image denoising, deblurring, and super-resolution tasks. The numerical experiments show that RELD is competitive with other state-of-the-art methods, particularly achieving remarkable results when evaluated using perceptual quality metrics.

arxiv情報

著者 Pasquale Cascarano,Lorenzo Stacchio,Andrea Sebastiani,Alessandro Benfenati,Ulugbek S. Kamilov,Gustavo Marfia
発行日 2025-03-28 16:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RELD: Regularization by Latent Diffusion Models for Image Restoration はコメントを受け付けていません

Advancing the Biological Plausibility and Efficacy of Hebbian Convolutional Neural Networks

要約

このペーパーで提示された研究は、イメージ処理のためのヘビアン学習の畳み込みニューラルネットワーク(CNNS)への統合を進め、さまざまなアーキテクチャを体系的に探索して最適な構成を構築し、生物学的テンデビリティに準拠しています。
Hebbian Learningは、地元の監視されていない神経情報に基づいて機能して特徴表現を形成し、一般的であるが、おそらく生物学的に信じられない、計算的に集中的なバックプロパゲーション学習アルゴリズムに代わるものを提供します。
提案された最適なアーキテクチャは、ヘビアン学習を競争メカニズムとCNNと統合することを目的とした最近の研究を大幅に強化し、ハードウィナーテイクス(WTA)競争、ガウスの横方向の阻害メカニズム、および単一モデルでのBIENENSTOCK-COOPER-MUNRO(BCM)学習ルールを組み込むことにより、その表現能力を拡大します。
CIFAR-10のテストエポックの後期における平均精度分類尺度は、結果として生じる最適モデルがエンドツーエンドのバックプロパゲーションバリアントとそれぞれ75.2%と一致し、同じネットワーク深度(64.6%)のCNNSの最先端のハードWTAパフォーマンスを10.6%上回ることを明らかにしました。
また、MNIST(98%)とSTL-10(69.5%)で競争力のあるパフォーマンスを達成しました。
さらに、結果は、ますます複雑で抽象的な受容フィールドを介したまばらな階層学習の明確な兆候を示しました。
要約すると、私たちの実装は、学習した表現のパフォーマンスと一般化の両方を強化し、より生物学的に現実的な人工ニューラルネットワークへの重要なステップを構成します。

要約(オリジナル)

The research presented in this paper advances the integration of Hebbian learning into Convolutional Neural Networks (CNNs) for image processing, systematically exploring different architectures to build an optimal configuration, adhering to biological tenability. Hebbian learning operates on local unsupervised neural information to form feature representations, providing an alternative to the popular but arguably biologically implausible and computationally intensive backpropagation learning algorithm. The suggested optimal architecture significantly enhances recent research aimed at integrating Hebbian learning with competition mechanisms and CNNs, expanding their representational capabilities by incorporating hard Winner-Takes-All (WTA) competition, Gaussian lateral inhibition mechanisms, and Bienenstock-Cooper-Munro (BCM) learning rule in a single model. Mean accuracy classification measures during the last half of test epochs on CIFAR-10 revealed that the resulting optimal model matched its end-to-end backpropagation variant with 75.2% each, critically surpassing the state-of-the-art hard-WTA performance in CNNs of the same network depth (64.6%) by 10.6%. It also achieved competitive performance on MNIST (98%) and STL-10 (69.5%). Moreover, results showed clear indications of sparse hierarchical learning through increasingly complex and abstract receptive fields. In summary, our implementation enhances both the performance and the generalisability of the learnt representations and constitutes a crucial step towards more biologically realistic artificial neural networks.

arxiv情報

著者 Julian Jimenez Nimmo,Esther Mondragon
発行日 2025-03-28 16:11:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE, I.2.6 | Advancing the Biological Plausibility and Efficacy of Hebbian Convolutional Neural Networks はコメントを受け付けていません