Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View

要約

シングルビュー3D再構成は現在、2つの支配的な観点からアプローチされています。3Dデータ監視を使用した多様性が限られているシーンの再構築または大きな画像プライアーを使用した多様な特異オブジェクトの再構築。
ただし、実際のシナリオははるかに複雑であり、これらのメソッドの機能を超えています。
したがって、格差戦略に従ってハイブリッド方法を提案します。
まず、シーンを全体的に処理し、深さ情報とセマンティック情報を抽出し、個々のコンポーネントの詳細な再構築のためにオブジェクトレベルの方法を活用します。
問題をよりシンプルなタスクに分割することにより、システムは再訓練や微調整なしでさまざまな種類のシーンに一般化することができます。
私たちは、システム全体のエンドツーエンドトレーニングの必要性を回避するために、独立した自己完結型モジュールで高度にモジュール式になるようにパイプラインを意図的に設計します。
これにより、将来の方法が個々のモジュールを置き換えることができるため、パイプラインが自然に改善できます。
合成シーンと現実世界の両方のシーンでのアプローチの再構築パフォーマンスを実証し、以前の作品と有利なことを比較します。
プロジェクトページ:https://andreeadogaru.github.io/gen3dsr

要約(オリジナル)

Single-view 3D reconstruction is currently approached from two dominant perspectives: reconstruction of scenes with limited diversity using 3D data supervision or reconstruction of diverse singular objects using large image priors. However, real-world scenarios are far more complex and exceed the capabilities of these methods. We therefore propose a hybrid method following a divide-and-conquer strategy. We first process the scene holistically, extracting depth and semantic information, and then leverage an object-level method for the detailed reconstruction of individual components. By splitting the problem into simpler tasks, our system is able to generalize to various types of scenes without retraining or fine-tuning. We purposely design our pipeline to be highly modular with independent, self-contained modules, to avoid the need for end-to-end training of the whole system. This enables the pipeline to naturally improve as future methods can replace the individual modules. We demonstrate the reconstruction performance of our approach on both synthetic and real-world scenes, comparing favorable against prior works. Project page: https://andreeadogaru.github.io/Gen3DSR

arxiv情報

著者 Andreea Ardelean,Mert Özer,Bernhard Egger
発行日 2025-03-31 13:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View はコメントを受け付けていません

4D mmWave Radar in Adverse Environments for Autonomous Driving: A Survey

要約

自律運転システムには、正確で信頼できる認識が必要です。
ただし、雨、雪、霧などの不利な環境は、ライダーとカメラの性能を大幅に低下させる可能性があります。
対照的に、4Dミリ波(MMWave)レーダーは、3Dセンシングと追加の速度測定を提供するだけでなく、挑戦的な状況でも堅牢性を維持し、自律運転にますます価値があります。
最近、不利な環境の下での4D MMWaveレーダーに関する研究が増加していますが、包括的な調査はまだ不足しています。
このギャップを埋めるために、この調査では、不利な環境での4D MMWaveレーダーに関する現在の研究を包括的にレビューします。
まず、多様な天気や照明シナリオを含む既存の4D MMWaveレーダーデータセットの概要を示します。
次に、さまざまな不利益に応じて方法とモデルを分析します。
最後に、現在の研究と潜在的な将来の方向性で直面している課題について、過酷な環境で4D MMWaveレーダーアプリケーションを進めるために議論されています。
私たちの知る限り、これは自律運転のための不利な環境で4D MMWaveレーダーに特に焦点を当てた最初の調査です。

要約(オリジナル)

Autonomous driving systems require accurate and reliable perception. However, adverse environments, such as rain, snow, and fog, can significantly degrade the performance of LiDAR and cameras. In contrast, 4D millimeter-wave (mmWave) radar not only provides 3D sensing and additional velocity measurements but also maintains robustness in challenging conditions, making it increasingly valuable for autonomous driving. Recently, research on 4D mmWave radar under adverse environments has been growing, but a comprehensive survey is still lacking. To bridge this gap, this survey comprehensively reviews the current research on 4D mmWave radar under adverse environments. First, we present an overview of existing 4D mmWave radar datasets encompassing diverse weather and lighting scenarios. Next, we analyze methods and models according to different adverse conditions. Finally, the challenges faced in current studies and potential future directions are discussed for advancing 4D mmWave radar applications in harsh environments. To the best of our knowledge, this is the first survey specifically focusing on 4D mmWave radar in adverse environments for autonomous driving.

arxiv情報

著者 Xiangyuan Peng,Miao Tang,Huawei Sun,Lorenzo Servadei,Robert Wille
発行日 2025-03-31 13:42:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 4D mmWave Radar in Adverse Environments for Autonomous Driving: A Survey はコメントを受け付けていません

DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description

要約

オーディオの説明は、ビデオの重要な視覚要素を知覚する際にビジョン障害のある視聴者を支援するために設計されたナレーションされた解説です。
短い形式のビデオ理解は急速に進歩していますが、一貫した長期視覚的ストーリーテリングを維持するためのソリューションは未解決のままです。
既存の方法は、フレームレベルの埋め込みのみに依存しており、オブジェクトベースのコンテンツを効果的に説明しますが、シーン全体にコンテキスト情報が不足しています。
このギャップに対処するために、デュアルビジョントランスベースのアーキテクチャを活用する強化されたビデオ説明モデルであるDante-Adを紹介します。
Dante-ADは、長期的なコンテキスト理解を改善するために、フレームとシーンレベルの埋め込みの両方を順次融合します。
きめ細かいオーディオ説明生成のコンテキスト接地を達成するために、順次の相互参加のための新しい最先端の方法を提案します。
よく知られている映画クリップからの幅広い重要なシーンで評価されたDante-Adは、従来のNLPメトリックとLLMベースの評価にわたって既存の方法を上回ります。

要約(オリジナル)

Audio Description is a narrated commentary designed to aid vision-impaired audiences in perceiving key visual elements in a video. While short-form video understanding has advanced rapidly, a solution for maintaining coherent long-term visual storytelling remains unresolved. Existing methods rely solely on frame-level embeddings, effectively describing object-based content but lacking contextual information across scenes. We introduce DANTE-AD, an enhanced video description model leveraging a dual-vision Transformer-based architecture to address this gap. DANTE-AD sequentially fuses both frame and scene level embeddings to improve long-term contextual understanding. We propose a novel, state-of-the-art method for sequential cross-attention to achieve contextual grounding for fine-grained audio description generation. Evaluated on a broad range of key scenes from well-known movie clips, DANTE-AD outperforms existing methods across traditional NLP metrics and LLM-based evaluations.

arxiv情報

著者 Adrienne Deganutti,Simon Hadfield,Andrew Gilbert
発行日 2025-03-31 13:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description はコメントを受け付けていません

PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

要約

大腸内視鏡検査中のポリープの早期発見、正確なセグメンテーション、分類、追跡は、結腸直腸癌の予防に重要です。
大腸内視鏡ビデオを分析するための多くの既存のディープラーニングベースの方法は、タスク固有の微調整、追跡能力の欠如、またはドメイン固有のプリトレーニングに依存する必要があります。
このホワイトペーパーでは、大腸内視鏡ビデオでポリープの検出、セグメンテーション、分類、および教師なし追跡に共同で対処する新しい基礎モデルである\ textit {polypsegtrack}を紹介します。
私たちのアプローチは、新しい条件付きマスクの損失を活用し、ピクセルレベルのセグメンテーションマスクまたは境界ボックスアノテーションのいずれかでデータセット間の柔軟なトレーニングを可能にし、タスク固有の微調整をバイパスすることができます。
当社の教師なしトラッキングモジュールは、ヒューリスティックに依存することなく、オブジェクトクエリを使用してフレーム間でポリープインスタンスを確実に関連付けます。
私たちは、自然な画像で事前に訓練されていない訓練を受けている堅牢なVision Foundationモデルのバックボーンを活用し、それによりドメイン固有のプリトレーニングの必要性を削除します。
複数のポリープベンチマークでの広範な実験は、この方法が、既存の最先端のアプローチを検出、セグメンテーション、分類、追跡において大幅に上回ることを示しています。

要約(オリジナル)

Early detection, accurate segmentation, classification and tracking of polyps during colonoscopy are critical for preventing colorectal cancer. Many existing deep-learning-based methods for analyzing colonoscopic videos either require task-specific fine-tuning, lack tracking capabilities, or rely on domain-specific pre-training. In this paper, we introduce \textit{PolypSegTrack}, a novel foundation model that jointly addresses polyp detection, segmentation, classification and unsupervised tracking in colonoscopic videos. Our approach leverages a novel conditional mask loss, enabling flexible training across datasets with either pixel-level segmentation masks or bounding box annotations, allowing us to bypass task-specific fine-tuning. Our unsupervised tracking module reliably associates polyp instances across frames using object queries, without relying on any heuristics. We leverage a robust vision foundation model backbone that is pre-trained unsupervisedly on natural images, thereby removing the need for domain-specific pre-training. Extensive experiments on multiple polyp benchmarks demonstrate that our method significantly outperforms existing state-of-the-art approaches in detection, segmentation, classification, and tracking.

arxiv情報

著者 Anwesa Choudhuri,Zhongpai Gao,Meng Zheng,Benjamin Planche,Terrence Chen,Ziyan Wu
発行日 2025-03-31 14:00:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis はコメントを受け付けていません

IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration

要約

画像登録は医療イメージングの基本であり、診断、治療計画、画像誘導治療、または縦断的監視のための解剖学的構造の正確な整合性を可能にします。
この作業では、多様な画像登録フレームワーク(ElastixやVoxelmorphなど)にシームレスな統合のために設計された一般的なセマンティックな類似性メトリックである、Transmodality Registrationの前のモデルと存在の比較を伴う画像メトリック)を導入します。
タスク固有のトレーニングを必要とせずに医療画像から抽出された深い学習ベースの機能を比較し、さまざまなモダリティにわたって幅広い適用性を確保します。
大規模な事前に処理されたTotalSegmentatorモデルの特徴と、モデル(SAM)やその他の大規模セグメンテーションネットワークをセグメント化する機能を活用することにより、このアプローチは大きな利点を提供します。
マルチモーダル画像登録に堅牢でスケーラブルで効率的なソリューションを提供します。
影響損失は、胸部CT/CBCTおよび骨盤MR/CTデータセットを含む5つの挑戦的な登録タスクで評価されました。
ターゲット登録エラーやサイコロの類似性係数などの定量的メトリックは、ベースライン方法と比較して解剖学的アラインメントの大幅な改善を示しました。
定性分析により、ノイズ、アーティファクト、およびモダリティのバリエーションに直面して、提案されたメトリックの堅牢性の増加がさらに確認されました。
Impactの汎用性と効率性により、臨床および研究アプリケーションの登録パフォーマンスを進めるための貴重なツールになり、マルチモーダル医療イメージングの重要な課題に対処します。

要約(オリジナル)

Image registration is fundamental in medical imaging, enabling precise alignment of anatomical structures for diagnosis, treatment planning, image-guided treatment or longitudinal monitoring. This work introduces IMPACT (Image Metric with Pretrained model-Agnostic Comparison for Transmodality registration), a generic semantic similarity metric designed for seamless integration into diverse image registration frameworks (such as Elastix and Voxelmorph). It compares deep learning-based features extracted from medical images without requiring task-specific training, ensuring broad applicability across various modalities. By leveraging the features of the large-scale pretrained TotalSegmentator models and the ability to integrate Segment Anything Model (SAM) and other large-scale segmentation networks, this approach offers significant advantages. It provides robust, scalable, and efficient solutions for multimodal image registration. The IMPACT loss was evaluated on five challenging registration tasks involving thoracic CT/CBCT, and pelvic MR/CT datasets. Quantitative metrics, such as Target Registration Error and Dice Similarity Coefficient, demonstrated significant improvements in anatomical alignment compared to baseline methods. Qualitative analyses further confirmed the increased robustness of the proposed metric in the face of noise, artifacts, and modality variations. IMPACT’s versatility and efficiency make it a valuable tool for advancing registration performance in clinical and research applications, addressing critical challenges in multimodal medical imaging.

arxiv情報

著者 Valentin Boussot,Cédric Hémon,Jean-Claude Nunes,Jason Downling,Simon Rouzé,Caroline Lafond,Anaïs Barateau,Jean-Louis Dillenseger
発行日 2025-03-31 14:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration はコメントを受け付けていません

It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data

要約

プラトニック表現仮説は、モデルとデータセットのサイズが増加するにつれて、ビジョンと言語の埋め込みがより均一になることを示唆しています。
特に、各モダリティ内のペアワイズ距離はより類似しています。
これは、基礎モデルが成熟するにつれて、視覚と言語の埋め込みを完全に監視されていない方法で、つまり並列データなしで一致させることが可能になる可能性があることを示唆しています。
最初の実現可能性調査を提示し、監視されていない、または「ブラインド」のマッチングの文脈における既存のビジョンおよび言語基礎モデルの適合性を調査します。
まず、監視されていないマッチングを二次割り当ての問題として策定し、以前のソルバーを上回る新しいヒューリスティックを導入します。
また、最適なマッチングの問題を見つけるための手法を開発します。
第二に、4つのデータセットにさまざまなビジョンモデルと言語モデルを展開する広範な研究を実施します。
私たちの分析は、多くの問題の例で、監督なしでビジョンと言語の表現を実際に一致させることができることを明らかにしています。
この発見は、セマンティック知識を他のモダリティに事実上注釈なしに埋め込むという刺激的な可能性を開きます。
概念実証として、監視されていない分類器を紹介します。これは、画像テキストの注釈なしで非自明の分類精度を実現します。

要約(オリジナル)

The platonic representation hypothesis suggests that vision and language embeddings become more homogeneous as model and dataset sizes increase. In particular, pairwise distances within each modality become more similar. This suggests that as foundation models mature, it may become possible to match vision and language embeddings in a fully unsupervised fashion, i.e. without parallel data. We present the first feasibility study, and investigate conformity of existing vision and language foundation models in the context of unsupervised, or ‘blind’, matching. First, we formulate unsupervised matching as a quadratic assignment problem and introduce a novel heuristic that outperforms previous solvers. We also develop a technique to find optimal matching problems, for which a non-trivial match is very likely. Second, we conduct an extensive study deploying a range of vision and language models on four datasets. Our analysis reveals that for many problem instances, vision and language representations can be indeed matched without supervision. This finding opens up the exciting possibility of embedding semantic knowledge into other modalities virtually annotation-free. As a proof of concept, we showcase an unsupervised classifier, which achieves non-trivial classification accuracy without any image-text annotation.

arxiv情報

著者 Dominik Schnaus,Nikita Araslanov,Daniel Cremers
発行日 2025-03-31 14:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | It’s a (Blind) Match! Towards Vision-Language Correspondence without Parallel Data はコメントを受け付けていません

PixelCAM: Pixel Class Activation Mapping for Histology Image Classification and ROI Localization

要約

弱く監視されたオブジェクトローカリゼーション(WSOL)メソッドにより、トレーニングモデルは画像を分類し、ROIをローカライズできます。
WSOLは、低コストの画像クラスの注釈のみを必要としますが、視覚的に解釈可能な分類器を提供します。これは、組織学の画像分析で重要です。
標準のWSOLメソッドは、クラスアクティベーションマッピング(CAM)メソッドに依存して、単一または2段階の戦略に従って空間ローカリゼーションマップを作成します。
両方の戦略は大きな進歩を遂げましたが、彼らはまだ組織学の画像でいくつかの制限に直面しています。
シングルステップの方法は、組織学の画像の視覚的ROIの顕著性が限られているため、局所化のキューが限られているため、簡単に過小または過剰活性化をもたらす可能性があります。
彼らはまた、分類とローカリゼーションのタスクの間の非同期収束のよく知られている問題に直面しています。
2段階のアプローチは、凍結分類器に結び付けられており、ローカリゼーションの能力を制限するため、最適ではありません。
さらに、これらの方法は、分散除外(OOD)データセットに適用される場合にも苦労しています。
この論文では、非同期収束問題に対処するための両方のタスクの同時トレーニングのために、WSOLのマルチタスクアプローチを導入します。
特に、ローカリゼーションは、分類と共有される画像エンコーダーのピクセルフィーチャー空間で実行されます。
これにより、ROIのローカリゼーションと画像分類をサポートするために、前景色/バックグラウンド領域の特定の特徴と正確な描写を学習することができます。
Pixelcamは、空間オブジェクトのローカリゼーションを可能にするPixel-Featureスペースにおける費用対効果の高い前景/背景ピクセルごとの分類器を提案します。
Pixelcamは、前提条件のWSOLモデルから収集されたPixel Pseudo-Labelsを使用してトレーニングされています。
画像とピクセルごとの両方の分類器は、標準勾配降下を使用して同時にトレーニングされます。
さらに、ピクセル分類器を、変更せずにCNNおよびトランスベースのアーキテクチャに簡単に統合できます。

要約(オリジナル)

Weakly supervised object localization (WSOL) methods allow training models to classify images and localize ROIs. WSOL only requires low-cost image-class annotations yet provides a visually interpretable classifier, which is important in histology image analysis. Standard WSOL methods rely on class activation mapping (CAM) methods to produce spatial localization maps according to a single- or two-step strategy. While both strategies have made significant progress, they still face several limitations with histology images. Single-step methods can easily result in under- or over-activation due to the limited visual ROI saliency in histology images and the limited localization cues. They also face the well-known issue of asynchronous convergence between classification and localization tasks. The two-step approach is sub-optimal because it is tied to a frozen classifier, limiting the capacity for localization. Moreover, these methods also struggle when applied to out-of-distribution (OOD) datasets. In this paper, a multi-task approach for WSOL is introduced for simultaneous training of both tasks to address the asynchronous convergence problem. In particular, localization is performed in the pixel-feature space of an image encoder that is shared with classification. This allows learning discriminant features and accurate delineation of foreground/background regions to support ROI localization and image classification. We propose PixelCAM, a cost-effective foreground/background pixel-wise classifier in the pixel-feature space that allows for spatial object localization. PixelCAM is trained using pixel pseudo-labels collected from a pretrained WSOL model. Both image and pixel-wise classifiers are trained simultaneously using standard gradient descent. In addition, our pixel classifier can easily be integrated into CNN- and transformer-based architectures without any modifications.

arxiv情報

著者 Alexis Guichemerre,Soufiane Belharbi,Mohammadhadi Shateri,Luke McCaffrey,Eric Granger
発行日 2025-03-31 14:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PixelCAM: Pixel Class Activation Mapping for Histology Image Classification and ROI Localization はコメントを受け付けていません

AI-Assisted Colonoscopy: Polyp Detection and Segmentation using Foundation Models

要約

大腸内視鏡検査では、ディープラーニングモデルの助けを借りて、見逃されたポリープの80%が検出される可能性があります。
この課題に対処できるアルゴリズムの検索では、基礎モデルが有望な候補者として現れます。
彼らのゼロショットまたは少数のショット学習機能は、広範な微調整なしに新しいデータまたはタスクの一般化を促進します。
従来のトレーニングのための大規模な注釈付きデータセットが不足している医療イメージングドメインで特に有利な概念。
これに関連して、検出と境界の両方を評価して、ポリープセグメンテーションの基礎モデルの包括的な評価が実施されました。
この研究では、3つの異なる大腸内視鏡検査データセットが採用されており、2つのベンチマークネットワーク、Yolov8とMask R-CNNと、Dinov2、Yolo-World、Groundingdino、Sam、Medsamの5つの異なる基礎モデルの性能を比較しています。
結果は、ポリープの特性評価における基礎モデルの成功がドメインの専門化に大きく依存していることを示しています。
医療用途で最適なパフォーマンスのために、ドメイン固有のモデルが不可欠であり、一般的なモデルでは効果的な結果を達成するために微調整が必​​要です。
この専門化を通じて、Foundationモデルは、最先端の検出およびセグメンテーションモデルと比較して優れたパフォーマンスを実証しました。一部のモデルはゼロショット評価にも優れています。
目に見えないデータの微調整モデルを上回る。

要約(オリジナル)

In colonoscopy, 80% of the missed polyps could be detected with the help of Deep Learning models. In the search for algorithms capable of addressing this challenge, foundation models emerge as promising candidates. Their zero-shot or few-shot learning capabilities, facilitate generalization to new data or tasks without extensive fine-tuning. A concept that is particularly advantageous in the medical imaging domain, where large annotated datasets for traditional training are scarce. In this context, a comprehensive evaluation of foundation models for polyp segmentation was conducted, assessing both detection and delimitation. For the study, three different colonoscopy datasets have been employed to compare the performance of five different foundation models, DINOv2, YOLO-World, GroundingDINO, SAM and MedSAM, against two benchmark networks, YOLOv8 and Mask R-CNN. Results show that the success of foundation models in polyp characterization is highly dependent on domain specialization. For optimal performance in medical applications, domain-specific models are essential, and generic models require fine-tuning to achieve effective results. Through this specialization, foundation models demonstrated superior performance compared to state-of-the-art detection and segmentation models, with some models even excelling in zero-shot evaluation; outperforming fine-tuned models on unseen data.

arxiv情報

著者 Uxue Delaquintana-Aramendi,Leire Benito-del-Valle,Aitor Alvarez-Gila,Javier Pascau,Luisa F Sánchez-Peralta,Artzai Picón,J Blas Pagador,Cristina L Saratxaga
発行日 2025-03-31 14:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AI-Assisted Colonoscopy: Polyp Detection and Segmentation using Foundation Models はコメントを受け付けていません

A Comparative Study of Scanpath Models in Graph-Based Visualization

要約

情報視覚化(Infovis)システムは、視覚表現を利用してデータ解釈を強化します。
インターフェイス設計を最適化するには、視覚的な注意がどのように割り当てられるかを理解することが不可欠です。
ただし、視力(ET)データを収集すると、コスト、プライバシー、スケーラビリティに関連する課題があります。
計算モデルは、視線パターンを予測するための代替案を提供し、それによってインフォビスの研究を進めます。
私たちの研究では、デジタルフォレンジックのコンテキスト内でさまざまな複雑さの質問に回答しながらグラフを分析した40人の参加者とのET実験を実施しました。
人間のスキャンパスを、deepgaze、umss、gazeformerなどのモデルによって生成された合成のスキャンと比較しました。
私たちの研究は、これらのモデルの精度を評価し、質問の複雑さとノードの数がパフォーマンスにどのように影響するかを調べます。
この作業は、視覚分析における予測モデリングの開発に貢献し、Infovisシステムの設計と有効性を高めることができる洞察を提供します。

要約(オリジナル)

Information Visualization (InfoVis) systems utilize visual representations to enhance data interpretation. Understanding how visual attention is allocated is essential for optimizing interface design. However, collecting Eye-tracking (ET) data presents challenges related to cost, privacy, and scalability. Computational models provide alternatives for predicting gaze patterns, thereby advancing InfoVis research. In our study, we conducted an ET experiment with 40 participants who analyzed graphs while responding to questions of varying complexity within the context of digital forensics. We compared human scanpaths with synthetic ones generated by models such as DeepGaze, UMSS, and Gazeformer. Our research evaluates the accuracy of these models and examines how question complexity and number of nodes influence performance. This work contributes to the development of predictive modeling in visual analytics, offering insights that can enhance the design and effectiveness of InfoVis systems.

arxiv情報

著者 Angela Lopez-Cardona,Parvin Emami,Sebastian Idesis,Saravanakumar Duraisamy,Luis A. Leiva,Ioannis Arapakis
発行日 2025-03-31 14:43:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | A Comparative Study of Scanpath Models in Graph-Based Visualization はコメントを受け付けていません

Foundation Models For Seismic Data Processing: An Extensive Review

要約

地震加工は、生データをさまざまな地球科学アプリケーションに極めて高品質の地下画像に変換する上で重要な役割を果たします。
その重要性にもかかわらず、従来の地震処理技術は、ノイズの多いデータや損傷したデータや、マニュアル、時間のかかるワークフローへの依存などの課題に直面しています。
深い学習アプローチの出現により、効果的でユーザーフレンドリーな代替案が導入されましたが、これらの深い学習アプローチの多くは、合成データセットと特殊なニューラルネットワークに依存しています。
最近、自然なイメージングが成功したため、基礎モデルは地震ドメインで牽引力を獲得しました。
このペーパーでは、タスクでの地震処理における基礎モデルの適用を調査します。
パフォーマンスと効率性に対するトレーニング前の手法やニューラルネットワークアーキテクチャなど、さまざまなモデル特性の影響を評価します。
単一の地震基礎モデルを提案するのではなく、このペーパーでは、さまざまな自然画像基礎モデルを批判的に調べ、将来の探査の有望な候補者を提案します。

要約(オリジナル)

Seismic processing plays a crucial role in transforming raw data into high-quality subsurface images, pivotal for various geoscience applications. Despite its importance, traditional seismic processing techniques face challenges such as noisy and damaged data and the reliance on manual, time-consuming workflows. The emergence of deep learning approaches has introduced effective and user-friendly alternatives, yet many of these deep learning approaches rely on synthetic datasets and specialized neural networks. Recently, foundation models have gained traction in the seismic domain, due to their success in natural imaging. This paper investigates the application of foundation models in seismic processing on the tasks: demultiple, interpolation, and denoising. It evaluates the impact of different model characteristics, such as pre-training technique and neural network architecture, on performance and efficiency. Rather than proposing a single seismic foundation model, this paper critically examines various natural image foundation models and suggest some promising candidates for future exploration.

arxiv情報

著者 Fabian Fuchs,Mario Ruben Fernandez,Norman Ettrich,Janis Keuper
発行日 2025-03-31 14:48:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Foundation Models For Seismic Data Processing: An Extensive Review はコメントを受け付けていません