Adaptive 3D UI Placement in Mixed Reality Using Deep Reinforcement Learning

要約

混合現実(MR)は、仮想コンテンツを物理的環境の見解と継続的に統合することにより、ユーザーのタスクを支援できます。
ただし、ユーザーを最適にサポートするためにこれらのコンテンツをどこに配置するかは、MRエクスペリエンスの動的な性質のために挑戦的な問題でした。
最適化ベースの方法を調査する以前の作業とは対照的に、ユーザーのポーズと周囲の環境を認識する継続的な3Dコンテンツの配置を補強することがどのように役立つかを調査しています。
最初の調査と予備的な評価を通じて、我々の結果は、外出先でユーザーの報酬を最大化するコンテンツを配置するRLの可能性を示しています。
さらに、MRのパーソナライズされ最適化されたUIおよびコンテンツ配置のRLの力を活用できる研究の将来の方向性を特定します。

要約(オリジナル)

Mixed Reality (MR) could assist users’ tasks by continuously integrating virtual content with their view of the physical environment. However, where and how to place these content to best support the users has been a challenging problem due to the dynamic nature of MR experiences. In contrast to prior work that investigates optimization-based methods, we are exploring how reinforcement learning (RL) could assist with continuous 3D content placement that is aware of users’ poses and their surrounding environments. Through an initial exploration and preliminary evaluation, our results demonstrate the potential of RL to position content that maximizes the reward for users on the go. We further identify future directions for research that could harness the power of RL for personalized and optimized UI and content placement in MR.

arxiv情報

著者 Feiyu Lu,Mengyu Chen,Hsiang Hsu,Pranav Deshpande,Cheng Yao Wang,Blair MacIntyre
発行日 2025-04-30 15:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | Adaptive 3D UI Placement in Mixed Reality Using Deep Reinforcement Learning はコメントを受け付けていません

Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space

要約

3Dの形態モデル(3DMMS)は、オブジェクトカテゴリの可能な形と外観を表すための強力なツールです。
単一のテスト画像を考えると、3DMMを使用して、3D形状、ポーズ、セマンティック対応、オブジェクトのインスタンスセグメンテーションの予測など、さまざまなタスクを解決できます。
残念ながら、3DMMは、厳しい3Dデータ収集とカテゴリ固有のトレーニングプロセスを必要とするため、顔や人体など、特に興味深い非常に興味深いオブジェクトカテゴリでのみ使用できます。
対照的に、オブジェクト中心のビデオのコレクションから完全に自己監視された方法で共通オブジェクトの3DMMを学習する新しい方法であるCommon3Dを紹介します。
この目的のために、私たちのモデルは、学習した3Dテンプレートメッシュとしてのオブジェクトと、画像コンディショナルニューラルネットワークとしてパラメーター化された変形場として表します。
以前の作品とは異なり、Common3Dは、RGB色の代わりに神経特徴を持つオブジェクトの外観を表します。これにより、ピクセル強度からの抽象化を通じて、より一般化可能な表現の学習が可能になります。
重要なことに、変形可能なテンプレートメッシュを介して定義された対応を活用することにより、対照的な目的を使用して外観機能をトレーニングします。
これにより、関連する作品と比較して高品質の対応機能が高くなり、3Dオブジェクトのポーズとセマンティック対応の推定でモデルのパフォーマンスが大幅に向上します。
Common3Dは、ゼロショットの方法でさまざまなビジョンタスクを解決できる最初の完全に自己監視された方法です。

要約(オリジナル)

3D morphable models (3DMMs) are a powerful tool to represent the possible shapes and appearances of an object category. Given a single test image, 3DMMs can be used to solve various tasks, such as predicting the 3D shape, pose, semantic correspondence, and instance segmentation of an object. Unfortunately, 3DMMs are only available for very few object categories that are of particular interest, like faces or human bodies, as they require a demanding 3D data acquisition and category-specific training process. In contrast, we introduce a new method, Common3D, that learns 3DMMs of common objects in a fully self-supervised manner from a collection of object-centric videos. For this purpose, our model represents objects as a learned 3D template mesh and a deformation field that is parameterized as an image-conditioned neural network. Different from prior works, Common3D represents the object appearance with neural features instead of RGB colors, which enables the learning of more generalizable representations through an abstraction from pixel intensities. Importantly, we train the appearance features using a contrastive objective by exploiting the correspondences defined through the deformable template mesh. This leads to higher quality correspondence features compared to related works and a significantly improved model performance at estimating 3D object pose and semantic correspondence. Common3D is the first completely self-supervised method that can solve various vision tasks in a zero-shot manner.

arxiv情報

著者 Leonhard Sommer,Olaf Dünkel,Christian Theobalt,Adam Kortylewski
発行日 2025-04-30 15:42:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space はコメントを受け付けていません

CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backbones

要約

クラスに依存しないカウント(CAC)は、事前定義されたカテゴリに制限されることなく、画像内のオブジェクトの数を推定することを目的としています。
ただし、現在の模範ベースのCACメソッドは推論時間に柔軟性を提供しますが、トレーニングのラベル付きデータに大きく依存しているため、多くのダウンストリームユースケースにスケーラビリティと一般化が制限されます。
この論文では、完全に監視されていない機能抽出器を活用する最初のトレーニングのない模範ベースのCACフレームワークであるCountingdinoを紹介します。
具体的には、私たちのアプローチは、自己監視のビジョンのみのバックボーンを採用してオブジェクトを認識している機能を抽出し、提案されたパイプライン全体で注釈付きデータの必要性を排除します。
推論時に、Dino機能からRoI-Alignを介して潜在オブジェクトのプロトタイプを抽出し、それらを畳み込みカーネルとして使用して類似性マップを生成します。
これらは、シンプルでありながら効果的な正規化スキームを介して密度マップに変換されます。
FSC-147ベンチマークでアプローチを評価します。このアプローチでは、同じラベルおよびトレーニングのない設定の下で、SOTA非監視オブジェクト検出器に基づいてベースラインを常に上回ります。
さらに、私たちは競争力のある結果を達成し、場合によっては、監督されたバックボーン、訓練を受けていない非監視なしの方法、およびいくつかの完全に監視されたSOTAアプローチに依存するトレーニングなしの方法を達成します。
これは、ラベルとトレーニングのないCACがスケーラブルで効果的であることを示しています。
コード:https://lorebianchi98.github.io/countingdino/。

要約(オリジナル)

Class-agnostic counting (CAC) aims to estimate the number of objects in images without being restricted to predefined categories. However, while current exemplar-based CAC methods offer flexibility at inference time, they still rely heavily on labeled data for training, which limits scalability and generalization to many downstream use cases. In this paper, we introduce CountingDINO, the first training-free exemplar-based CAC framework that exploits a fully unsupervised feature extractor. Specifically, our approach employs self-supervised vision-only backbones to extract object-aware features, and it eliminates the need for annotated data throughout the entire proposed pipeline. At inference time, we extract latent object prototypes via ROI-Align from DINO features and use them as convolutional kernels to generate similarity maps. These are then transformed into density maps through a simple yet effective normalization scheme. We evaluate our approach on the FSC-147 benchmark, where we consistently outperform a baseline based on an SOTA unsupervised object detector under the same label- and training-free setting. Additionally, we achieve competitive results — and in some cases surpass — training-free methods that rely on supervised backbones, non-training-free unsupervised methods, as well as several fully supervised SOTA approaches. This demonstrates that label- and training-free CAC can be both scalable and effective. Code: https://lorebianchi98.github.io/CountingDINO/.

arxiv情報

著者 Giacomo Pacini,Lorenzo Bianchi,Luca Ciampi,Nicola Messina,Giuseppe Amato,Fabrizio Falchi
発行日 2025-04-30 15:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CountingDINO: A Training-free Pipeline for Class-Agnostic Counting using Unsupervised Backbones はコメントを受け付けていません

Towards Understanding Depth Perception in Foveated Rendering

要約

リアルタイムの仮想現実と拡張現実の真のビジョンは、私たちの視覚的現実全体を没入型ディスプレイに再現しています。
この目的のために、フォベートレンダリングは、人間の末梢視力における空間的視力の制限をレバレッジし、周辺の品質を低下させながら計算リソースを中心窩に割り当てます。
このような方法は、多くの場合、人間の視覚システムの空間分解能と周辺のぼやけを認識する能力に関する研究から導き出され、リアルタイムでの空間的品質の高い可能性を可能にします。
ただし、深さなどの輝度コントラストに依存する他の視覚的な手がかりに対するぼやけの影響は、ほとんど未踏のままです。
正確な深さ表現は視覚的リアリズムの基本的な側面であるため、この相互作用を理解することが重要です。
このホワイトペーパーでは、立体視の深さ知覚に対する解放されたレンダリングの効果を調査する最初の評価を紹介します。
精神病実験を設計して、深さの知覚に対する末梢ぼかしの効果を定量的に研究します。
私たちの分析は、立体視力が高レベルの末梢ぼかしで影響を受けない(または改善する)ことを示しています。
私たちの研究に基づいて、立体性に影響を与えない窩の量を決定する単純な知覚モデルを導き出します。
さらに、文献で報告されている一般的な排水慣行の文脈でモデルを分析します。
調査結果は、解放されたレンダリングが立体視の深さの知覚に影響を与えないことを示しており、立体性は一般的に使用されるよりも最大2倍の強い窩の影響を受けないままであることを示しています。
最後に、検証実験を実施し、私たちの発見が複雑な自然刺激のために当てはまることを示します。

要約(オリジナル)

The true vision for real-time virtual and augmented reality is reproducing our visual reality in its entirety on immersive displays. To this end, foveated rendering leverages the limitations of spatial acuity in human peripheral vision to allocate computational resources to the fovea while reducing quality in the periphery. Such methods are often derived from studies on the spatial resolution of the human visual system and its ability to perceive blur in the periphery, enabling the potential for high spatial quality in real-time. However, the effects of blur on other visual cues that depend on luminance contrast, such as depth, remain largely unexplored. It is critical to understand this interplay, as accurate depth representation is a fundamental aspect of visual realism. In this paper, we present the first evaluation exploring the effects of foveated rendering on stereoscopic depth perception. We design a psychovisual experiment to quantitatively study the effects of peripheral blur on depth perception. Our analysis demonstrates that stereoscopic acuity remains unaffected (or even improves) by high levels of peripheral blur. Based on our studies, we derive a simple perceptual model that determines the amount of foveation that does not affect stereoacuity. Furthermore, we analyze the model in the context of common foveation practices reported in literature. The findings indicate that foveated rendering does not impact stereoscopic depth perception, and stereoacuity remains unaffected with up to 2x stronger foveation than commonly used. Finally, we conduct a validation experiment and show that our findings hold for complex natural stimuli.

arxiv情報

著者 Sophie Kergaßner,Taimoor Tariq,Piotr Didyk
発行日 2025-04-30 15:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.3.m | Towards Understanding Depth Perception in Foveated Rendering はコメントを受け付けていません

Optical aberrations in autonomous driving: Physics-informed parameterized temperature scaling for neural network uncertainty calibration

要約

「不確実性の信頼できる表現が望ましいものであり、機械学習方法の重要な特徴と見なされるべきです」(Huellermeier and Waegeman、2021)。
Huellermeier et alのこの結論。
校正された不確実性の重要性を支えています。
AIベースのアルゴリズムはデータセットシフトの大きな影響を受けているため、自動車産業は、可能なあらゆる偶発性に対してシステムを保護する必要があります。
1つは重要ですが、しばしば無視されるデータセットシフトは、フロントガラスによって誘発される光学異常によって引き起こされます。
Perception Systemのパフォーマンスを検証するには、AIパフォーマンスに関する要件を、生物マッピングにより光学メトリックに変換する必要があります。
この生物多様なマッピングを考えると、光学システムの特性がデータセットシフトの大きさに関する追加情報を追加することは明らかです。
結果として、AIターゲットアプリケーションの堅牢性と信頼性を高めるために、ニューラルネットワークキャリブレーションアーキテクチャに物理的誘導バイアスを組み込むことを提案します。これは、例としてセマンティックセグメンテーションタスクを使用することで実証します。
光学システムのZernike係数ベクトルを物理的な事前として利用することにより、光学異常の場合に平均予想キャリブレーション誤差を大幅に減らすことができます。
その結果、私たちは信頼できる不確実性の表現と知覚チェーンの全体的な検証戦略への道を開いています。

要約(オリジナル)

‘A trustworthy representation of uncertainty is desirable and should be considered as a key feature of any machine learning method’ (Huellermeier and Waegeman, 2021). This conclusion of Huellermeier et al. underpins the importance of calibrated uncertainties. Since AI-based algorithms are heavily impacted by dataset shifts, the automotive industry needs to safeguard its system against all possible contingencies. One important but often neglected dataset shift is caused by optical aberrations induced by the windshield. For the verification of the perception system performance, requirements on the AI performance need to be translated into optical metrics by a bijective mapping. Given this bijective mapping it is evident that the optical system characteristics add additional information about the magnitude of the dataset shift. As a consequence, we propose to incorporate a physical inductive bias into the neural network calibration architecture to enhance the robustness and the trustworthiness of the AI target application, which we demonstrate by using a semantic segmentation task as an example. By utilizing the Zernike coefficient vector of the optical system as a physical prior we can significantly reduce the mean expected calibration error in case of optical aberrations. As a result, we pave the way for a trustworthy uncertainty representation and for a holistic verification strategy of the perception chain.

arxiv情報

著者 Dominik Werner Wolf,Alexander Braun,Markus Ulrich
発行日 2025-04-30 16:15:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Optical aberrations in autonomous driving: Physics-informed parameterized temperature scaling for neural network uncertainty calibration はコメントを受け付けていません

Anatomical Similarity as a New Metric to Evaluate Brain Generative Models

要約

生成モデルは、データ増強、品質改善、およびまれな状態研究により、ニューロイメージングを強化します。
現実的な合成MRIの進歩にもかかわらず、評価はテクスチャーと知覚に焦点を当て、重要な解剖学的忠実度に対する感受性を欠いています。
この研究では、合成脳MRIの解剖学的リアリズムを評価するために、ワサビ(ワッサースタインベースの解剖学的脳指数)と呼ばれる新しいメトリックを提案しています。
Wasabi Leverages \ Textit {Synthseg}は、各MRIの脳領域の体積測定を導き出し、多変量ワッシュスタイン距離を使用して、実際の解剖学と合成解剖学の分布を比較します。
5つの生成モデルの2つの実際のデータセットと合成MRIでの制御された実験に基づいて、WASABIは、合成画像がほぼ完璧な視覚品質を達成した場合でも、従来の画像レベルのメトリックと比較して、解剖学的矛盾を定量化する際に高い感度を示しています。
私たちの調査結果は、目視検査や従来のメトリックを超えて評価パラダイムをシフトすることを提唱し、臨床的に意味のある脳MRI合成の重要なベンチマークとして解剖学的忠実度を強調しています。
私たちのコードは、https://github.com/bahramjafrasteh/wasabi-mriで入手できます。

要約(オリジナル)

Generative models enhance neuroimaging through data augmentation, quality improvement, and rare condition studies. Despite advances in realistic synthetic MRIs, evaluations focus on texture and perception, lacking sensitivity to crucial anatomical fidelity. This study proposes a new metric, called WASABI (Wasserstein-Based Anatomical Brain Index), to assess the anatomical realism of synthetic brain MRIs. WASABI leverages \textit{SynthSeg}, a deep learning-based brain parcellation tool, to derive volumetric measures of brain regions in each MRI and uses the multivariate Wasserstein distance to compare distributions between real and synthetic anatomies. Based on controlled experiments on two real datasets and synthetic MRIs from five generative models, WASABI demonstrates higher sensitivity in quantifying anatomical discrepancies compared to traditional image-level metrics, even when synthetic images achieve near-perfect visual quality. Our findings advocate for shifting the evaluation paradigm beyond visual inspection and conventional metrics, emphasizing anatomical fidelity as a crucial benchmark for clinically meaningful brain MRI synthesis. Our code is available at https://github.com/BahramJafrasteh/wasabi-mri.

arxiv情報

著者 Bahram Jafrasteh,Wei Peng,Cheng Wan,Yimin Luo,Ehsan Adeli,Qingyu Zhao
発行日 2025-04-30 16:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Anatomical Similarity as a New Metric to Evaluate Brain Generative Models はコメントを受け付けていません

LoC-LIC: Low Complexity Learned Image Coding Using Hierarchical Feature Transforms

要約

現在、学習した画像圧縮モデルは通常、高い複雑さを示し、重要な計算リソースを必要とします。
これらの課題を克服するために、階層的な特徴抽出変換を採用する革新的なアプローチを提案し、ビットレート削減効率を維持しながら複雑さを大幅に削減します。
私たちの新しいアーキテクチャは、高空間解像度の入力/機能マップのためにより少ないチャネルを使用することでこれを達成します。
一方、多数のチャネルを備えた機能マップにより、空間寸法が減少するため、パフォーマンスを犠牲にすることなく計算負荷を削減します。
この戦略により、\(1256 \、\ text {kmac/pixel} \)からフォワードパスの複雑さを効果的に\(270 \、\ text {kmac/pixel} \)に縮小します。
その結果、削減された複雑さモデルは、学習した画像圧縮モデルがさまざまなデバイスで効率的に動作し、画像圧縮テクノロジーの新しいアーキテクチャの開発への道を開く方法を開くことができます。

要約(オリジナル)

Current learned image compression models typically exhibit high complexity, which demands significant computational resources. To overcome these challenges, we propose an innovative approach that employs hierarchical feature extraction transforms to significantly reduce complexity while preserving bit rate reduction efficiency. Our novel architecture achieves this by using fewer channels for high spatial resolution inputs/feature maps. On the other hand, feature maps with a large number of channels have reduced spatial dimensions, thereby cutting down on computational load without sacrificing performance. This strategy effectively reduces the forward pass complexity from \(1256 \, \text{kMAC/Pixel}\) to just \(270 \, \text{kMAC/Pixel}\). As a result, the reduced complexity model can open the way for learned image compression models to operate efficiently across various devices and pave the way for the development of new architectures in image compression technology.

arxiv情報

著者 Ayman A. Ameen,Thomas Richter,André Kaup
発行日 2025-04-30 16:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | LoC-LIC: Low Complexity Learned Image Coding Using Hierarchical Feature Transforms はコメントを受け付けていません

Anomaly-Driven Approach for Enhanced Prostate Cancer Segmentation

要約

磁気共鳴イメージング(MRI)は、臨床的に重要な前立腺癌(CSPCA)を特定する上で重要な役割を果たしますが、自動化された方法は、データの不均衡、さまざまな腫瘍サイズ、注釈付きデータの欠如などの課題に直面しています。
この研究では、CSPCAの識別を​​改善するために、二面測定MRIシーケンスから派生した異常マップを深い学習ベースのセグメンテーションフレームワークに組み込んだ異常駆動型U-NET(ADU-NET)を紹介します。
異常検出方法の比較分析を実施し、異常マップのセグメンテーションパイプラインへの統合を評価します。
固定点GAN再建を使用して生成された異常マップは、正常な前立腺組織からの逸脱を強調し、セグメンテーションモデルを潜在的な癌領域に導きます。
AUROCの平均と平均精度(AP)として計算された平均スコアを使用して、パフォーマンスを比較します。
外部テストセットでは、ADU-NETが0.618の最高の平均スコアを達成し、ベースラインNNU-NETモデル(0.605)を上回ります。
結果は、異常検出をセグメンテーションに組み込むことで、特にADCベースの異常マップで一般化とパフォーマンスが向上し、自動化されたCSPCA識別のための有望な方向性を提供することを示しています。

要約(オリジナル)

Magnetic Resonance Imaging (MRI) plays an important role in identifying clinically significant prostate cancer (csPCa), yet automated methods face challenges such as data imbalance, variable tumor sizes, and a lack of annotated data. This study introduces Anomaly-Driven U-Net (adU-Net), which incorporates anomaly maps derived from biparametric MRI sequences into a deep learning-based segmentation framework to improve csPCa identification. We conduct a comparative analysis of anomaly detection methods and evaluate the integration of anomaly maps into the segmentation pipeline. Anomaly maps, generated using Fixed-Point GAN reconstruction, highlight deviations from normal prostate tissue, guiding the segmentation model to potential cancerous regions. We compare the performance by using the average score, computed as the mean of the AUROC and Average Precision (AP). On the external test set, adU-Net achieves the best average score of 0.618, outperforming the baseline nnU-Net model (0.605). The results demonstrate that incorporating anomaly detection into segmentation improves generalization and performance, particularly with ADC-based anomaly maps, offering a promising direction for automated csPCa identification.

arxiv情報

著者 Alessia Hu,Regina Beets-Tan,Lishan Cai,Eduardo Pooch
発行日 2025-04-30 16:48:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Anomaly-Driven Approach for Enhanced Prostate Cancer Segmentation はコメントを受け付けていません

Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals

要約

大規模な言語モデル(LLM)がますます印象的な機能を備えているため、視覚入力でLLMを増強するために、多くの大規模なビジョン言語モデル(LVLM)が提案されています。
このようなモデルは、入力画像とテキストプロンプトの両方でテキストを生成し、視覚的な質問応答やマルチモーダルチャットなどのさまざまなユースケースを有効にします。
以前の研究では、LLMSによって生成されたテキストに含まれる社会的バイアスを調査しましたが、このトピックはLVLMSで比較的未開拓です。
LVLMSの社会的バイアスを調べることは、テキストと視覚的モダリティに含まれる情報によって誘発されるバイアスの交絡貢献のために特に困難です。
この挑戦的な問題に対処するために、入力画像に対する反事実的な変更の下で異なるLVLMによって生成されたテキストの大規模な研究を実施し、一般的なモデルから5700万以上の回答を生成します。
私たちの多次元バイアス評価フレームワークは、画像に描かれた知覚された人種、性別、物理的特性などの社会的属性が、有毒な含有量の生成、能力関連の単語、有害なステレオタイプ、個人の数値評価に大きな影響を与える可能性があることを明らかにしています。

要約(オリジナル)

With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images, producing over 57 million responses from popular models. Our multi-dimensional bias evaluation framework reveals that social attributes such as perceived race, gender, and physical characteristics depicted in images can significantly influence the generation of toxic content, competency-associated words, harmful stereotypes, and numerical ratings of individuals.

arxiv情報

著者 Phillip Howard,Kathleen C. Fraser,Anahita Bhiwandiwalla,Svetlana Kiritchenko
発行日 2025-04-30 17:07:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals はコメントを受け付けていません

A simple and effective approach for body part recognition on CT scans based on projection estimation

要約

機械学習モデルには、最適なパフォーマンスを得るために大量の注釈付きデータが必要であることはよく知られています。
ラベル付けコンピューター断層撮影(CT)データは、その体積性がなく、しばしば欠落しているため、$/$または不完全な関連メタデータのために、特に困難な作業になる可能性があります。
1つのCTスキャンを検査しても、追加のコンピューターソフトウェア、またはプログラミング言語の場合は、$-$追加プログラミングライブラリが必要です。
この研究では、身体領域の識別のための3D CTスキャンの2D X線様の推定に基づいて、シンプルで効果的なアプローチを提案しています。
体領域は一般にCTスキャンに関連付けられていますが、観察されたCTに存在する他の解剖学的領域を無視する集中的な主要な体領域のみを記述します。
提案されたアプローチでは、推定2D画像が14の異なるボディ領域を特定するために使用され、高品質の医療データセットを構築するための貴重な情報を提供しました。
提案された方法の有効性を評価するために、2.5D、3D、およびFoundationモデル(MI2)ベースのアプローチと比較しました。
私たちのアプローチは、他のアプローチを上回り、0.840 $ \ PM $ 0.114(2.5Dデンセネット-161)、0.854 $ 0.096(3D voxCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCRINET-161)と比較して、統計的有意性とF1スコアが統計的有意性とF1スコアを上回りました。
(MI2ファンデーションモデル)。
使用されたデータセットは3つの異なる臨床センターで構成され、15,622 CTスキャン(44,135ラベル)をカウントしました。

要約(オリジナル)

It is well known that machine learning models require a high amount of annotated data to obtain optimal performance. Labelling Computed Tomography (CT) data can be a particularly challenging task due to its volumetric nature and often missing and$/$or incomplete associated meta-data. Even inspecting one CT scan requires additional computer software, or in the case of programming languages $-$ additional programming libraries. This study proposes a simple, yet effective approach based on 2D X-ray-like estimation of 3D CT scans for body region identification. Although body region is commonly associated with the CT scan, it often describes only the focused major body region neglecting other anatomical regions present in the observed CT. In the proposed approach, estimated 2D images were utilized to identify 14 distinct body regions, providing valuable information for constructing a high-quality medical dataset. To evaluate the effectiveness of the proposed method, it was compared against 2.5D, 3D and foundation model (MI2) based approaches. Our approach outperformed the others, where it came on top with statistical significance and F1-Score for the best-performing model EffNet-B0 of 0.980 $\pm$ 0.016 in comparison to the 0.840 $\pm$ 0.114 (2.5D DenseNet-161), 0.854 $\pm$ 0.096 (3D VoxCNN), and 0.852 $\pm$ 0.104 (MI2 foundation model). The utilized dataset comprised three different clinical centers and counted 15,622 CT scans (44,135 labels).

arxiv情報

著者 Franko Hrzic,Mohammadreza Movahhedi,Ophelie Lavoie-Gagne,Ata Kiapour
発行日 2025-04-30 17:13:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 65D19, 68T01, cs.CV, I.2.1 | A simple and effective approach for body part recognition on CT scans based on projection estimation はコメントを受け付けていません