Metrics Revolutions: Groundbreaking Insights into the Implementation of Metrics for Biomedical Image Segmentation

要約

セグメンテーション性能の評価は、バイオメディカル画像解析における一般的なタスクであり、最近発表されたメトリクスの選択ガイドラインや計算フレームワークにおいても、その重要性が強調されている。2つのセグメンテーションのアライメントを定量的に評価するために、研究者は一般的に、ダイス類似度係数のような計数メトリクスや、ハウスドルフ距離のような距離ベースのメトリクスに頼る。本研究では、この仮定に疑問を投げかけ、実際の臨床データを用いた定量的な実験とともに体系的な実装分析を行い、距離ベースのメトリクス計算のための11のオープンソースツールと、高精度なメッシュベースのリファレンス実装とを比較した。その結果、すべてのオープンソースツール間で統計的に有意な差があることが明らかになった。また、主なばらつきの原因を特定するだけでなく、距離ベースのメトリクス計算に関する推奨事項も示している。

要約(オリジナル)

The evaluation of segmentation performance is a common task in biomedical image analysis, with its importance emphasized in the recently released metrics selection guidelines and computing frameworks. To quantitatively evaluate the alignment of two segmentations, researchers commonly resort to counting metrics, such as the Dice similarity coefficient, or distance-based metrics, such as the Hausdorff distance, which are usually computed by publicly available open-source tools with an inherent assumption that these tools provide consistent results. In this study we questioned this assumption, and performed a systematic implementation analysis along with quantitative experiments on real-world clinical data to compare 11 open-source tools for distance-based metrics computation against our highly accurate mesh-based reference implementation. The results revealed that statistically significant differences among all open-source tools are both surprising and concerning, since they question the validity of existing studies. Besides identifying the main sources of variation, we also provide recommendations for distance-based metrics computation.

arxiv情報

著者 Gašper Podobnik,Tomaž Vrtovec
発行日 2024-10-03 16:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Spatial-Temporal Multi-Cuts for Online Multiple-Camera Vehicle Tracking

要約

正確なオンライン複数カメラ車両追跡は、インテリジェント交通システム、自律走行、スマートシティアプリケーションに不可欠である。シングルカメラによる複数オブジェクト追跡と同様に、一般的にトラッキング・バイ・検出のグラフ問題として定式化される。このフレームワークの中で、既存のオンライン手法は通常、まず時間的にクラスタリングし、次に空間的にクラスタリングする、もしくはその逆の2段階の手順で構成されています。これは計算コストが高く、エラーが蓄積しやすい。我々は、空間的・時間的クラスタリングを単一の複合ステップで行えるグラフ表現を導入する:新しい検出は、既存のクラスタと空間的・時間的に接続される。クラスタ内の全ての検出の外観と位置の手がかりを疎にすることで、我々の手法は利用可能な最も強い証拠に基づいてクラスタを比較することができる。最終的なトラックは、簡単なマルチカット割り当て手順を用いてオンラインで得られる。我々の方法は、ターゲットシーンでのトレーニング、シングルカメラトラックの事前抽出、追加アノテーションを必要としない。注目すべきことに、我々はCityFlowデータセットにおいてIDF1の点で14%以上、Synthehicleデータセットにおいて25%以上、それぞれオンライン最新技術を上回る。コードは公開されている。

要約(オリジナル)

Accurate online multiple-camera vehicle tracking is essential for intelligent transportation systems, autonomous driving, and smart city applications. Like single-camera multiple-object tracking, it is commonly formulated as a graph problem of tracking-by-detection. Within this framework, existing online methods usually consist of two-stage procedures that cluster temporally first, then spatially, or vice versa. This is computationally expensive and prone to error accumulation. We introduce a graph representation that allows spatial-temporal clustering in a single, combined step: New detections are spatially and temporally connected with existing clusters. By keeping sparse appearance and positional cues of all detections in a cluster, our method can compare clusters based on the strongest available evidence. The final tracks are obtained online using a simple multicut assignment procedure. Our method does not require any training on the target scene, pre-extraction of single-camera tracks, or additional annotations. Notably, we outperform the online state-of-the-art on the CityFlow dataset in terms of IDF1 by more than 14%, and on the Synthehicle dataset by more than 25%, respectively. The code is publicly available.

arxiv情報

著者 Fabian Herzog,Johannes Gilg,Philipp Wolters,Torben Teepe,Gerhard Rigoll
発行日 2024-10-03 16:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Diffusion-based Extreme Image Compression with Compressed Feature Initialization

要約

拡散に基づく極端な画像圧縮法は、極めて低いビットレートで印象的な性能を達成してきた。しかし、純粋なノイズから始まる反復的なノイズ除去処理に制約され、これらの方法は忠実性と効率の両方において限界がある。これら2つの問題に対処するために、我々は、圧縮された特徴初期化と残差拡散を活用するRelay Residual Diffusion Extreme Image Compression (RDEIC)を発表する。具体的には、まず、ノイズ除去プロセスの不要な初期段階を排除するために、純粋なノイズではなく、ノイズが付加された画像の圧縮された潜在特徴を出発点として使用する。次に、付加ノイズと圧縮潜在特徴量とターゲット潜在特徴量の間の残差を繰り返し除去することにより、生画像を再構成する新しいリレー残差拡散を設計する。特筆すべきは、我々のリレー残差拡散ネットワークは、事前に訓練された安定拡散をシームレスに統合し、その頑健な生成能力を活用して高品質な再構成を行うことである。第三に、学習段階と推論段階の間の不一致を解消し、再構成品質をさらに向上させるために、固定段階の微調整戦略を提案する。広範な実験により、提案するRDEICが最先端の視覚的品質を達成し、忠実度と効率の両方において既存の拡散ベースの極端な画像圧縮法を凌駕することを実証する。ソースコードはhttps://github.com/huai-chang/RDEIC。

要約(オリジナル)

Diffusion-based extreme image compression methods have achieved impressive performance at extremely low bitrates. However, constrained by the iterative denoising process that starts from pure noise, these methods are limited in both fidelity and efficiency. To address these two issues, we present Relay Residual Diffusion Extreme Image Compression (RDEIC), which leverages compressed feature initialization and residual diffusion. Specifically, we first use the compressed latent features of the image with added noise, instead of pure noise, as the starting point to eliminate the unnecessary initial stages of the denoising process. Second, we design a novel relay residual diffusion that reconstructs the raw image by iteratively removing the added noise and the residual between the compressed and target latent features. Notably, our relay residual diffusion network seamlessly integrates pre-trained stable diffusion to leverage its robust generative capability for high-quality reconstruction. Third, we propose a fixed-step fine-tuning strategy to eliminate the discrepancy between the training and inference phases, further improving the reconstruction quality. Extensive experiments demonstrate that the proposed RDEIC achieves state-of-the-art visual quality and outperforms existing diffusion-based extreme image compression methods in both fidelity and efficiency. The source code will be provided in https://github.com/huai-chang/RDEIC.

arxiv情報

著者 Zhiyuan Li,Yanhui Zhou,Hao Wei,Chenyang Ge,Ajmal Mian
発行日 2024-10-03 16:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする

Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

要約

視覚に基づく意味的情景補完(Semantic Scene Completion: SSC)は、様々な3次元知覚タスクに広く応用されており、注目を集めている。既存のsparse-to-denseアプローチは、通常、様々な入力画像間で共有されたコンテキストに依存しないクエリを用いるが、これは異なる入力の焦点領域が異なるため、入力画像間の区別を捉えることができず、クロスアテンションの無向きの特徴集約を引き起こす可能性がある。さらに、奥行き情報がないため、画像平面に投影された点が同じ2次元位置を共有したり、特徴マップのサンプリング点が類似したりする可能性があり、奥行きの曖昧さが生じる。本論文では、コンテキストとジオメトリを意識した新しいボクセル変換器を提案する。これはコンテキストを意識したクエリ生成器を利用し、個々の入力画像に合わせたコンテキスト依存のクエリを初期化することで、その画像固有の特徴を効果的に捉え、関心領域内の情報を集約する。さらに、2Dから3Dピクセル空間への変形可能なクロスアテンションを拡張し、深度座標に基づいて類似した画像座標を持つ点の区別を可能にする。このモジュールをベースに、意味的なシーン補完を実現するために、CGFormerと名付けられたニューラルネットワークを導入する。同時に、CGFormerは複数の3D表現(ボクセルとTPV)を活用し、変換された3Dボリュームの意味的・幾何学的表現能力を局所的・大域的観点から高める。実験の結果、CGFormerは、SemanticKITTIおよびSSCBench-KITTI-360ベンチマークにおいて、それぞれ16.87および20.05のmIoU、45.99および48.07のIoUを達成し、最先端の性能を達成した。驚くべきことに、CGFormerは、入力として時間画像を用いたアプローチや、はるかに大規模な画像バックボーンネットワークをも凌駕している。

要約(オリジナル)

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.

arxiv情報

著者 Zhu Yu,Runmin Zhang,Jiacheng Ying,Junchen Yu,Xiaohai Hu,Lun Luo,Si-Yuan Cao,Hui-Liang Shen
発行日 2024-10-03 16:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition

要約

近年のロボット工学の進歩により、ロボットが長期的かつ大規模なミッションを遂行できるようになり、実世界での自律性が向上している。ミッションを成功させるために重要な要素は、蓄積された姿勢推定ドリフトを効果的に緩和する、場所認識によるループ閉鎖の組み込みである。特に、リソースに制約のある移動ロボットやマルチロボットシステムでは、従来のキーフレームサンプリング手法では、固定サンプリング間隔に依存したり、特徴空間ではなく3D空間で直接作業したりするため、冗長な情報を保持したり、関連データを見落としたりすることが多いからである。このような懸念に対処するため、我々は、場所認識におけるサンプル空間の概念を導入し、異なるサンプリング手法が、問い合わせプロセスと全体的な性能にどのような影響を与えるかを示す。次に、LiDARに基づく場所認識のための新しいキーフレームサンプリングアプローチを紹介する。このアプローチは、超次元記述子空間における冗長性の最小化と情報保存に焦点を当てている。このアプローチは、学習ベースの記述子と手作りの記述子の両方に適用可能であり、複数のデータセットと記述子のフレームワークにわたる実験的検証を通じて、提案手法の有効性を実証し、冗長性を共同で最小化し、リアルタイムで本質的な情報を保存できることを示す。提案手法は、パラメータチューニングを必要とせず、様々なデータセットにおいて頑健な性能を維持し、幅広いロボットアプリケーションにおいて、より効率的で信頼性の高い場所認識に貢献する。

要約(オリジナル)

Recent advances in robotics are pushing real-world autonomy, enabling robots to perform long-term and large-scale missions. A crucial component for successful missions is the incorporation of loop closures through place recognition, which effectively mitigates accumulated pose estimation drift. Despite computational advancements, optimizing performance for real-time deployment remains challenging, especially in resource-constrained mobile robots and multi-robot systems since, conventional keyframe sampling practices in place recognition often result in retaining redundant information or overlooking relevant data, as they rely on fixed sampling intervals or work directly in the 3D space instead of the feature space. To address these concerns, we introduce the concept of sample space in place recognition and demonstrate how different sampling techniques affect the query process and overall performance. We then present a novel keyframe sampling approach for LiDAR-based place recognition, which focuses on redundancy minimization and information preservation in the hyper-dimensional descriptor space. This approach is applicable to both learning-based and handcrafted descriptors, and through the experimental validation across multiple datasets and descriptor frameworks, we demonstrate the effectiveness of our proposed method, showing it can jointly minimize redundancy and preserve essential information in real-time. The proposed approach maintains robust performance across various datasets without requiring parameter tuning, contributing to more efficient and reliable place recognition for a wide range of robotic applications.

arxiv情報

著者 Nikolaos Stathoulopoulos,Vidya Sumathy,Christoforos Kanellakis,George Nikolakopoulos
発行日 2024-10-03 16:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | コメントする

Learning 3D Perception from Others’ Predictions

要約

実世界環境における正確な3D物体検出には、高品質で膨大な量のアノテーションデータが必要である。このようなデータの取得は面倒で高価であり、新しいセンサの採用時や検出器が新しい環境に配置されたときに、しばしば繰り返しの労力を必要とする。我々は、3次元物体検出器を構築するための新しいシナリオとして、高精度な検出器を搭載した近くのユニットの予測から学習することを検討する。例えば、自動運転車が新しいエリアに入ったとき、そのエリアに最適化された検出器を持つ他の交通参加者から学習することができる。この設定はラベル効率に優れ、センサーに依存せず、通信効率に優れています。近くのユニットはエゴエージェント(例えば車)と予測を共有するだけでよいのです。しかしながら、エゴ・カー用の検出器を訓練するために、受信した予測値を基底真理としてナイーブに使用すると、性能が劣ることになる。我々はこの問題を系統的に研究し、視点の不一致と(同期やGPSエラーによる)ミスローカライゼーションが主な原因であることを特定する。我々は、距離ベースのカリキュラムを提案する。まず、同じような視点を持つより近いユニットから学習し、その後、自己訓練によって他のユニットの予測の質を向上させる。さらに、効果的な擬似ラベル精密化モジュールが、わずかな注釈付きデータで学習できることを実証し、物体検出器の学習に必要なデータ量を大幅に削減する。最近公開された実世界の協調運転データセットにおいて、参照車の予測をエゴ・カーの擬似ラベルとして用いて、本アプローチを検証する。いくつかのシナリオ(例えば、異なるセンサー、検出器、ドメイン)を含む広範な実験により、他のユニットの予測から3D知覚のラベル効率的学習に対する我々のアプローチの有効性を実証する。

要約(オリジナル)

Accurate 3D object detection in real-world environments requires a huge amount of annotated data with high quality. Acquiring such data is tedious and expensive, and often needs repeated effort when a new sensor is adopted or when the detector is deployed in a new environment. We investigate a new scenario to construct 3D object detectors: learning from the predictions of a nearby unit that is equipped with an accurate detector. For example, when a self-driving car enters a new area, it may learn from other traffic participants whose detectors have been optimized for that area. This setting is label-efficient, sensor-agnostic, and communication-efficient: nearby units only need to share the predictions with the ego agent (e.g., car). Naively using the received predictions as ground-truths to train the detector for the ego car, however, leads to inferior performance. We systematically study the problem and identify viewpoint mismatches and mislocalization (due to synchronization and GPS errors) as the main causes, which unavoidably result in false positives, false negatives, and inaccurate pseudo labels. We propose a distance-based curriculum, first learning from closer units with similar viewpoints and subsequently improving the quality of other units’ predictions via self-training. We further demonstrate that an effective pseudo label refinement module can be trained with a handful of annotated data, largely reducing the data quantity necessary to train an object detector. We validate our approach on the recently released real-world collaborative driving dataset, using reference cars’ predictions as pseudo labels for the ego car. Extensive experiments including several scenarios (e.g., different sensors, detectors, and domains) demonstrate the effectiveness of our approach toward label-efficient learning of 3D perception from other units’ predictions.

arxiv情報

著者 Jinsu Yoo,Zhenyang Feng,Tai-Yu Pan,Yihong Sun,Cheng Perng Phoo,Xiangyu Chen,Mark Campbell,Kilian Q. Weinberger,Bharath Hariharan,Wei-Lun Chao
発行日 2024-10-03 16:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Measuring and Improving Persuasiveness of Generative Models

要約

LLMは、人間が消費するコンテンツを生成するワークフロー(マーケティングなど)や、人間と直接対話するワークフロー(チャットボットなど)で使用されるようになってきている。検証可能な説得力のあるメッセージを生成できるこのようなシステムの開発は、社会にとってチャンスであると同時に課題でもある。一方では、このようなシステムは、広告や薬物中毒への対処のような社会的善のような領域にプラスの影響を与える可能性があり、他方では、誤った情報の拡散や政治的意見の形成に悪用される可能性がある。LLMが社会に与える影響を調整するために、我々はLLMの説得力を測定し、ベンチマークするシステムを開発する必要がある。このような動機から、我々は、生成モデルの説得力を自動的に測定するためのタスク群を含む、初の大規模ベンチマークとアリーナであるPersuasionBenchとPersuasionArenaを紹介する。我々は、LLMがより説得力のある言語を生成するのに役立つ言語パターンをどの程度知っており、活用しているかを調査する。その結果、LLMの説得力はモデルの大きさと正の相関があるが、より小さなモデルでも、より大きなモデルよりも高い説得力を持たせることができることがわかった。注目すべきは、合成データセットと自然データセットを用いた的を絞った訓練が、小規模モデルの説得力を著しく向上させ、規模依存の仮定に挑戦することである。我々の発見は、モデル開発者と政策立案者の双方に重要な示唆を与える。例えば、EUのAI法やカリフォルニア州のSB-1047は、浮動小数点演算の数に基づいてAIモデルを規制することを目指しているが、我々は、このような単純な指標だけではAIの社会的影響の全容を捉えることができないことを実証している。我々は、AIによる説得とその社会的意味合いについての理解を深めるために、https://bit.ly/measure-persuasion で利用可能な PersuasionArena と PersuasionBench を探求し、貢献することをコミュニティに呼びかける。

要約(オリジナル)

LLMs are increasingly being used in workflows involving generating content to be consumed by humans (e.g., marketing) and also in directly interacting with humans (e.g., through chatbots). The development of such systems that are capable of generating verifiably persuasive messages presents both opportunities and challenges for society. On the one hand, such systems could positively impact domains like advertising and social good, such as addressing drug addiction, and on the other, they could be misused for spreading misinformation and shaping political opinions. To channel LLMs’ impact on society, we need to develop systems to measure and benchmark their persuasiveness. With this motivation, we introduce PersuasionBench and PersuasionArena, the first large-scale benchmark and arena containing a battery of tasks to measure the persuasion ability of generative models automatically. We investigate to what extent LLMs know and leverage linguistic patterns that can help them generate more persuasive language. Our findings indicate that the persuasiveness of LLMs correlates positively with model size, but smaller models can also be made to have a higher persuasiveness than much larger models. Notably, targeted training using synthetic and natural datasets significantly enhances smaller models’ persuasive capabilities, challenging scale-dependent assumptions. Our findings carry key implications for both model developers and policymakers. For instance, while the EU AI Act and California’s SB-1047 aim to regulate AI models based on the number of floating point operations, we demonstrate that simple metrics like this alone fail to capture the full scope of AI’s societal impact. We invite the community to explore and contribute to PersuasionArena and PersuasionBench, available at https://bit.ly/measure-persuasion, to advance our understanding of AI-driven persuasion and its societal implications.

arxiv情報

著者 Somesh Singh,Yaman K Singla,Harini SI,Balaji Krishnamurthy
発行日 2024-10-03 16:36:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Evaluating Perceptual Distance Models by Fitting Binomial Distributions to Two-Alternative Forced Choice Data

要約

2択強制選択(2AFC)実験法は、視覚知覚の文献でよく用いられている。実験者は、基準画像と2つの歪んだ画像からなる3連画像内の距離を、人間がどのように知覚するかを理解することを目的としている。従来、この実験法は管理された環境で行われ、3つ組の画像を共有することで、知覚される品質に順位をつけることが可能であった。このランキングは、実験データに対する知覚距離モデルの評価に使用される。近年、クラウドソーシングによる知覚データセットが登場し、トリプレット間で画像が共有されないため、ランキングをつけることが不可能になっている。このデータを用いて知覚距離モデルを評価することは、トリプレットに対する判断を二値的な判断、すなわち距離モデルが人間の判断と一致するか否かに還元することになるが、これは最適ではなく、誤解を招く結論になりやすい。その代わりに、二項分布を用いて、2AFC実験中の根本的な意思決定プロセスを統計的にモデル化する。十分な経験的データがあるため、各距離モデルに従って、参照歪み距離平面上の判断の滑らかで一貫性のある分布を推定する。最尤法を適用することにより、局所的な二項分布のパラメータを推定し、測定された応答の期待対数尤度の大域的な測定を行う。我々は、トリプレットあたりの判定数が変化する場合でも、単なる一致率としての予測精度を超えて、距離モデルに対して意味のある十分な根拠のある測定基準を計算する。

要約(オリジナル)

The two-alternative forced choice (2AFC) experimental method is popular in the visual perception literature, where practitioners aim to understand how human observers perceive distances within triplets made of a reference image and two distorted versions. In the past, this had been conducted in controlled environments, with triplets sharing images, so it was possible to rank the perceived quality. This ranking would then be used to evaluate perceptual distance models against the experimental data. Recently, crowd-sourced perceptual datasets have emerged, with no images shared between triplets, making ranking infeasible. Evaluating perceptual distance models using this data reduces the judgements on a triplet to a binary decision, namely, whether the distance model agrees with the human decision – which is suboptimal and prone to misleading conclusions. Instead, we statistically model the underlying decision-making process during 2AFC experiments using a binomial distribution. Having enough empirical data, we estimate a smooth and consistent distribution of the judgements on the reference-distorted distance plane, according to each distance model. By applying maximum likelihood, we estimate the parameter of the local binomial distribution, and a global measurement of the expected log-likelihood of the measured responses. We calculate meaningful and well-founded metrics for the distance model, beyond the mere prediction accuracy as percentage agreement, even with variable numbers of judgements per triplet — key advantages over both classical and neural network methods.

arxiv情報

著者 Alexander Hepburn,Raul Santos-Rodriguez,Javier Portilla
発行日 2024-10-03 17:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Generalizing Medical Image Representations via Quaternion Wavelet Networks

要約

ニューラルネットワークの汎化可能性は、様々なソースからの様々なタスクのデータセットが利用可能になりつつあるため、広範な研究分野になりつつある。この問題は、方法論的標準の欠如により、異なる画像診断センターから提供されたり、様々な装置や因子を用いて取得されたりして、大きなばらつきがある医療データを処理する場合に、さらに大きくなる。これらの制限を克服するために、我々は、医療画像から顕著な特徴を抽出することができる、データおよびタスクにとらわれない、一般化可能な新しいフレームワークを紹介する。提案する四元ウェーブレットネットワーク(QUAVE)は、既存の医用画像解析や合成タスクと容易に統合することができ、実数値、四元値、超複素数値モデルを扱うことができ、シングルチャンネルデータへの適用を一般化する。QUAVEはまず、クウォータニオンウェーブレット変換により異なるサブバンドを抽出し、低周波/近似バンドと高周波/細粒度の特徴の両方を得る。次に、標準的なデータサンプルの代わりに、画像処理用の他のニューラルモデルの入力として関与する、最も代表的なサブバンドのセットを計量する。さまざまなデータセット、多様な画像解析、再構成、セグメンテーション、モダリティ変換を含む合成タスクからなる広範な実験的評価を実施する。また、QUAVEを実数値モデルと四元数値モデルの両方と組み合わせて評価する。その結果、提案するフレームワークの有効性と汎用性が実証された。このフレームワークは、ネットワークの性能を向上させるとともに、多様なシナリオに柔軟に対応し、ドメインのシフトに頑健である。全コードはhttps://github.com/ispamm/QWT。

要約(オリジナル)

Neural network generalizability is becoming a broad research field due to the increasing availability of datasets from different sources and for various tasks. This issue is even wider when processing medical data, where a lack of methodological standards causes large variations being provided by different imaging centers or acquired with various devices and cofactors. To overcome these limitations, we introduce a novel, generalizable, data- and task-agnostic framework able to extract salient features from medical images. The proposed quaternion wavelet network (QUAVE) can be easily integrated with any pre-existing medical image analysis or synthesis task, and it can be involved with real, quaternion, or hypercomplex-valued models, generalizing their adoption to single-channel data. QUAVE first extracts different sub-bands through the quaternion wavelet transform, resulting in both low-frequency/approximation bands and high-frequency/fine-grained features. Then, it weighs the most representative set of sub-bands to be involved as input to any other neural model for image processing, replacing standard data samples. We conduct an extensive experimental evaluation comprising different datasets, diverse image analysis, and synthesis tasks including reconstruction, segmentation, and modality translation. We also evaluate QUAVE in combination with both real and quaternion-valued models. Results demonstrate the effectiveness and the generalizability of the proposed framework that improves network performance while being flexible to be adopted in manifold scenarios and robust to domain shifts. The full code is available at: https://github.com/ispamm/QWT.

arxiv情報

著者 Luigi Sigillo,Eleonora Grassucci,Aurelio Uncini,Danilo Comminiello
発行日 2024-10-03 17:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Lie Algebra Canonicalization: Equivariant Neural Operators under arbitrary Lie Groups

要約

ロバストで汎化可能な機械学習モデルの探求は、等変量ニューラルネットワークを通して対称性を利用することへの最近の関心を駆り立てている。PDEソルバーの文脈では、最近の研究により、リー点対称性が、データと損失の増大を通じて、物理情報ニューラルネットワーク(PINN)の有用な帰納的バイアスになり得ることが示されている。にもかかわらず、このような問題に対してモデル・アーキテクチャの中で直接的に等変数を強制することは依然として困難である。これは、多くのPDEが非コンパクトな対称群を持つためであり、しばしば、その無限小世代を越えて研究されていないため、既存のほとんどの等変量アーキテクチャと互換性がない。本研究では、Lie aLgebrA Canonicalization (LieLAC)を提案する。LieLACは、対称群の無限小演算子の作用のみを利用する新しいアプローチであり、完全な群構造の知識を必要としない。これを実現するために、我々は正準化の文献における既存の理論的問題に取り組み、連続的な非コンパクト群の場合のフレーム平均化との関連を確立する。正準化の枠組みの中で動作するLieLACは、制約のない事前訓練されたモデルと容易に統合することができ、既存のモデルに入力する前に入力を正準形式に変換し、許容される対称性に従ってモデル推論のための入力を効果的に整列させる。LieLACは標準的なリー群降下スキームを利用し、事前訓練されたモデルにおける等変数を達成する。最後に、事前に訓練されたモデルを用いた不変画像分類とリー点対称等変量ニューラルPDEソルバーのタスクにおけるLieLACの有効性を示す。

要約(オリジナル)

The quest for robust and generalizable machine learning models has driven recent interest in exploiting symmetries through equivariant neural networks. In the context of PDE solvers, recent works have shown that Lie point symmetries can be a useful inductive bias for Physics-Informed Neural Networks (PINNs) through data and loss augmentation. Despite this, directly enforcing equivariance within the model architecture for these problems remains elusive. This is because many PDEs admit non-compact symmetry groups, oftentimes not studied beyond their infinitesimal generators, making them incompatible with most existing equivariant architectures. In this work, we propose Lie aLgebrA Canonicalization (LieLAC), a novel approach that exploits only the action of infinitesimal generators of the symmetry group, circumventing the need for knowledge of the full group structure. To achieve this, we address existing theoretical issues in the canonicalization literature, establishing connections with frame averaging in the case of continuous non-compact groups. Operating within the framework of canonicalization, LieLAC can easily be integrated with unconstrained pre-trained models, transforming inputs to a canonical form before feeding them into the existing model, effectively aligning the input for model inference according to allowed symmetries. LieLAC utilizes standard Lie group descent schemes, achieving equivariance in pre-trained models. Finally, we showcase LieLAC’s efficacy on tasks of invariant image classification and Lie point symmetry equivariant neural PDE solvers using pre-trained models.

arxiv情報

著者 Zakhar Shumaylov,Peter Zaika,James Rowbottom,Ferdia Sherry,Melanie Weber,Carola-Bibiane Schönlieb
発行日 2024-10-03 17:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.NA, math.NA | コメントする