DF-Net: The Digital Forensics Network for Image Forgery Detection

要約

特に操作された画像を介した世論のオーケストレーションされた操作は、しばしばオンラインソーシャルネットワーク(OSN)を介して広がることがあり、社会にとって深刻な脅威になっています。
このペーパーでは、ピクセルごとの画像偽造検出のための深いニューラルネットワークであるDigital Forensics Net(DF-NET)を紹介します。
リリースされたモデルは、4つの確立されたベンチマークデータセットでいくつかの最先端の方法を上回ります。
最も注目すべきは、DF-NETの検出は、ソーシャルネットワークによって自動的に実行されるため、損失のある画像操作(サイズ変更、圧縮など)に対して堅牢です。

要約(オリジナル)

The orchestrated manipulation of public opinion, particularly through manipulated images, often spread via online social networks (OSN), has become a serious threat to society. In this paper we introduce the Digital Forensics Net (DF-Net), a deep neural network for pixel-wise image forgery detection. The released model outperforms several state-of-the-art methods on four established benchmark datasets. Most notably, DF-Net’s detection is robust against lossy image operations (e.g resizing, compression) as they are automatically performed by social networks.

arxiv情報

著者 David Fischinger,Martin Boyer
発行日 2025-03-28 13:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DF-Net: The Digital Forensics Network for Image Forgery Detection はコメントを受け付けていません

VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow

要約

ニューラルネットワークは、複雑で挑戦的なタスクを解決するために広く採用されています。
特にハイステークスの意思決定では、彼らの推論プロセスを理解することは非常に重要ですが、現代の深いネットワークにとって挑戦的であることが証明されています。
特徴視覚化(FV)は、ニューロンがどの情報に応答しているかを解読し、したがって、そのようなネットワークの背後にある理由をよりよく理解するための強力なツールです。
特に、FVでは、関心のあるニューロンによって検出された情報を反映する人間に理解できる画像を生成します。
ただし、現在の方法は、人間にとって理解しにくい繰り返しパターンと視覚的アーティファクトを示す認識できない視覚化をしばしば生成します。
これらの問題に対処するために、関連するネットワークフローの尺度と組み合わせて、プロトタイプ画像を生成する実際の画像機能の統計を介してFVをガイドすることを提案します。
私たちのアプローチは、さまざまなアーキテクチャ全体の最先端のFVよりも定性的および定量的に改善する人間に理解できる視覚化をもたらします。
そのため、ネットワークが使用する情報をデコードするために使用でき、エンコードされた場所を識別する機械的回路を補完します。
コードは、https://github.com/adagorgun/vitalで入手できます

要約(オリジナル)

Neural networks are widely adopted to solve complex and challenging tasks. Especially in high-stakes decision-making, understanding their reasoning process is crucial, yet proves challenging for modern deep networks. Feature visualization (FV) is a powerful tool to decode what information neurons are responding to and hence to better understand the reasoning behind such networks. In particular, in FV we generate human-understandable images that reflect the information detected by neurons of interest. However, current methods often yield unrecognizable visualizations, exhibiting repetitive patterns and visual artifacts that are hard to understand for a human. To address these problems, we propose to guide FV through statistics of real image features combined with measures of relevant network flow to generate prototypical images. Our approach yields human-understandable visualizations that both qualitatively and quantitatively improve over state-of-the-art FVs across various architectures. As such, it can be used to decode which information the network uses, complementing mechanistic circuits that identify where it is encoded. Code is available at: https://github.com/adagorgun/VITAL

arxiv情報

著者 Ada Gorgun,Bernt Schiele,Jonas Fischer
発行日 2025-03-28 13:08:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow はコメントを受け付けていません

Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks

要約

手続き活動におけるエラー検出は、ARアシストおよびロボットシステムの一貫した正しい結果に不可欠です。
既存の方法は、通常のアクションを表すために時間的な順序付けエラーに焦点を当てたり、静的プロトタイプに依存したりすることがよくあります。
ただし、これらのアプローチは通常、実行されたアクションの特定のシーケンスに従って複数の異なるアクションが有効である共通シナリオを見落としています。
これにより、2つの問題が発生します。(1)推論環境またはアクション実行分布がトレーニングとは異なる場合、モデルは静的プロトタイプを使用してエラーを効果的に検出できません。
(2)進行中のアクションラベルが予測されたものと同じでない場合、モデルは間違ったプロトタイプを使用してエラーを検出する場合があります。
この問題に対処するために、適応型複数の通常のアクション表現(AMNAR)フレームワークを提案します。
Amnarは、すべての有効な次のアクションを予測し、対応する通常のアクション表現を再構築します。これは、進行中のアクションと比較してエラーを検出します。
広範な実験は、Amnarが最先端のパフォーマンスを達成し、Amnarの有効性とエラー検出における複数の有効な次のアクションをモデル化することの重要性を強調することを示しています。
このコードは、https://github.com/isee-laboratory/amnarで入手できます。

要約(オリジナル)

Error detection in procedural activities is essential for consistent and correct outcomes in AR-assisted and robotic systems. Existing methods often focus on temporal ordering errors or rely on static prototypes to represent normal actions. However, these approaches typically overlook the common scenario where multiple, distinct actions are valid following a given sequence of executed actions. This leads to two issues: (1) the model cannot effectively detect errors using static prototypes when the inference environment or action execution distribution differs from training; and (2) the model may also use the wrong prototypes to detect errors if the ongoing action label is not the same as the predicted one. To address this problem, we propose an Adaptive Multiple Normal Action Representation (AMNAR) framework. AMNAR predicts all valid next actions and reconstructs their corresponding normal action representations, which are compared against the ongoing action to detect errors. Extensive experiments demonstrate that AMNAR achieves state-of-the-art performance, highlighting the effectiveness of AMNAR and the importance of modeling multiple valid next actions in error detection. The code is available at https://github.com/iSEE-Laboratory/AMNAR.

arxiv情報

著者 Wei-Jin Huang,Yuan-Ming Li,Zhi-Wei Xia,Yu-Ming Tang,Kun-Yu Lin,Jian-Fang Hu,Wei-Shi Zheng
発行日 2025-03-28 13:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks はコメントを受け付けていません

ShadowHack: Hacking Shadows via Luminance-Color Divide and Conquer

要約

影は、画像の明るさの低下、テクスチャの劣化、色の歪みなどの課題を導入し、全体的な解決策を複雑にします。
この研究は、元のタスクを輝度の回復と色の治療に分解することでこれらの複雑さに取り組む分裂と征服戦略である\ textBf {Shadowhack}を示しています。
シャドウ領域を明るくし、輝度空間の破損したテクスチャを修復するために、整流された注意モジュールを備えたU字型ネットワークであるLRNETをカスタマイズして、情報相互作用を強化し、汚染された注意マップを再調整します。
輝度が回復すると、CRNETはクロスアテナンスメカニズムを活用して鮮やかな色を復活させ、視覚的に説得力のある結果を生み出します。
複数のデータセットでの広範な実験が行われ、既存の最先端のソリューションに対するShadowhackの優位性を定量的かつ定性的に実証し、設計の有効性を強調しています。
私たちのコードは公開されます。

要約(オリジナル)

Shadows introduce challenges such as reduced brightness, texture deterioration, and color distortion in images, complicating a holistic solution. This study presents \textbf{ShadowHack}, a divide-and-conquer strategy that tackles these complexities by decomposing the original task into luminance recovery and color remedy. To brighten shadow regions and repair the corrupted textures in the luminance space, we customize LRNet, a U-shaped network with a rectified attention module, to enhance information interaction and recalibrate contaminated attention maps. With luminance recovered, CRNet then leverages cross-attention mechanisms to revive vibrant colors, producing visually compelling results. Extensive experiments on multiple datasets are conducted to demonstrate the superiority of ShadowHack over existing state-of-the-art solutions both quantitatively and qualitatively, highlighting the effectiveness of our design. Our code will be made publicly available.

arxiv情報

著者 Jin Hu,Mingjia Li,Xiaojie Guo
発行日 2025-03-28 13:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ShadowHack: Hacking Shadows via Luminance-Color Divide and Conquer はコメントを受け付けていません

DF2023: The Digital Forensics 2023 Dataset for Image Forgery Detection

要約

特にオンラインソーシャルネットワークを通じて頻繁に広まられている変更された画像を通して、世論の意図的な操作は、社会に重大な危険をもたらします。
技術レベルでこの問題と戦うために、デジタルフォレンジック2023(DF2023)トレーニングと検証データセットをリリースすることにより、研究コミュニティをサポートします。
このデータセットにより、ネットワークアーキテクチャの客観的な比較が可能になり、データセットを準備する研究者の時間と労力を大幅に削減できます。

要約(オリジナル)

The deliberate manipulation of public opinion, especially through altered images, which are frequently disseminated through online social networks, poses a significant danger to society. To fight this issue on a technical level we support the research community by releasing the Digital Forensics 2023 (DF2023) training and validation dataset, comprising one million images from four major forgery categories: splicing, copy-move, enhancement and removal. This dataset enables an objective comparison of network architectures and can significantly reduce the time and effort of researchers preparing datasets.

arxiv情報

著者 David Fischinger,Martin Boyer
発行日 2025-03-28 13:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DF2023: The Digital Forensics 2023 Dataset for Image Forgery Detection はコメントを受け付けていません

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

要約

既存の3D Vision-Language(3D-VL)ベンチマークは、3D-VLモデルの評価には不足しており、モデル機能と3D-VLタスクに関する厳密な洞察を曖昧にする「ミスト」を作成します。
この霧は、3つの重要な制限が原因で持続します。
第一に、接地タスクのあいまいな参照テキストのような欠陥のあるテストデータは、誤った信頼できないテスト結果をもたらす可能性があります。
第二に、質問応答(QA)ペアごとの単純な平均精度などの単純化されたメトリックは、言語のバリエーションに対する脆弱性のために真のモデル能力を明らかにすることはできません。
第三に、既存のベンチマークは接地タスクとQAタスクを分離し、QAは固体接地能力に基づいているという根本的な一貫性を無視します。
「ミスト」を発表するために、3D-VL接地およびQAタスクのベンチマークであるBeacon3Dを提案し、3D-VL理解の評価における視点シフトを提供します。
beacon3d機能(i)正確で自然な言語を備えた高品質のテストデータ、(ii)堅牢性を確保するためのオブジェクトごとの複数のテストを使用したオブジェクト中心の評価、および(iii)接地とQA全体の言語の堅牢性とモデルのパフォーマンスの一貫性に対処するための新しい分析パラダイム。
Beacon3Dでの最先端の3D-VLモデルの評価は、(i)オブジェクト中心の評価が真のモデルパフォーマンスと特にQAの一般化を誘発することを明らかにしています。
(ii)接地qaのコヒーレンスは、現在の3D-VLモデルでは脆弱なままであり、(iii)一般的な実践としての大きな言語モデル(LLMS)を3D-VLモデルに組み込むと、接地能力を妨げ、QA能力をまだ高めていません。
Beacon3Dと当社の包括的な分析が、3D-VLコミュニティに忠実な発展に役立つことを願っています。

要約(オリジナル)

Existing 3D vision-language (3D-VL) benchmarks fall short in evaluating 3D-VL models, creating a ‘mist’ that obscures rigorous insights into model capabilities and 3D-VL tasks. This mist persists due to three key limitations. First, flawed test data, like ambiguous referential text in the grounding task, can yield incorrect and unreliable test results. Second, oversimplified metrics such as simply averaging accuracy per question answering (QA) pair, cannot reveal true model capability due to their vulnerability to language variations. Third, existing benchmarks isolate the grounding and QA tasks, disregarding the underlying coherence that QA should be based on solid grounding capabilities. To unveil the ‘mist’, we propose Beacon3D, a benchmark for 3D-VL grounding and QA tasks, delivering a perspective shift in the evaluation of 3D-VL understanding. Beacon3D features (i) high-quality test data with precise and natural language, (ii) object-centric evaluation with multiple tests per object to ensure robustness, and (iii) a novel chain-of-analysis paradigm to address language robustness and model performance coherence across grounding and QA. Our evaluation of state-of-the-art 3D-VL models on Beacon3D reveals that (i) object-centric evaluation elicits true model performance and particularly weak generalization in QA; (ii) grounding-QA coherence remains fragile in current 3D-VL models, and (iii) incorporating large language models (LLMs) to 3D-VL models, though as a prevalent practice, hinders grounding capabilities and has yet to elevate QA capabilities. We hope Beacon3D and our comprehensive analysis could benefit the 3D-VL community towards faithful developments.

arxiv情報

著者 Jiangyong Huang,Baoxiong Jia,Yan Wang,Ziyu Zhu,Xiongkun Linghu,Qing Li,Song-Chun Zhu,Siyuan Huang
発行日 2025-03-28 13:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis はコメントを受け付けていません

Knowledge Bridger: Towards Training-free Missing Multi-modality Completion

要約

欠落したモダリティ完了に対する以前の成功したアプローチは、慎重に設計された融合技術と完全なデータの広範なトレーニングに依存しており、ドメイン外(OOD)シナリオの一般化可能性を制限できます。
この研究では、新しい課題を提起します。リソース効率が高く、一般化に対して堅牢な欠落しているモダリティ完了モデルを開発できますか?
これに対処するために、大規模なマルチモーダルモデル(LMM)を活用するモダリティ完了が欠落しているためのトレーニングなしのフレームワークを提示します。
「知識ブリッジャー」と呼ばれる私たちのアプローチは、モダリティに依存しており、欠落しているモダリティの生成とランキングを統合します。
ドメイン固有のプライアーを定義することにより、私たちの方法は、利用可能なモダリティから構造化された情報を自動的に抽出して、知識グラフを構築します。
これらの抽出されたグラフは、欠落しているモダリティ生成とランキングモジュールをLMMを介して接続し、失われたモダリティの高品質の帰属をもたらします。
一般的なドメインと医療ドメインの両方での実験結果は、私たちのアプローチがOOD一般化を含む競合する方法を常に上回ることを示しています。
さらに、当社の知識主導の生成およびランキングテクニックは、生成とランキングにLMMを直接使用するバリエーションに対する優位性を示し、他のドメインでのアプリケーションにとって価値のある洞察を提供します。

要約(オリジナル)

Previous successful approaches to missing modality completion rely on carefully designed fusion techniques and extensive pre-training on complete data, which can limit their generalizability in out-of-domain (OOD) scenarios. In this study, we pose a new challenge: can we develop a missing modality completion model that is both resource-efficient and robust to OOD generalization? To address this, we present a training-free framework for missing modality completion that leverages large multimodal models (LMMs). Our approach, termed the ‘Knowledge Bridger’, is modality-agnostic and integrates generation and ranking of missing modalities. By defining domain-specific priors, our method automatically extracts structured information from available modalities to construct knowledge graphs. These extracted graphs connect the missing modality generation and ranking modules through the LMM, resulting in high-quality imputations of missing modalities. Experimental results across both general and medical domains show that our approach consistently outperforms competing methods, including in OOD generalization. Additionally, our knowledge-driven generation and ranking techniques demonstrate superiority over variants that directly employ LMMs for generation and ranking, offering insights that may be valuable for applications in other domains.

arxiv情報

著者 Guanzhou Ke,Shengfeng He,Xiao Li Wang,Bo Wang,Guoqing Chao,Yuanyang Zhang,Yi Xie,HeXing Su
発行日 2025-03-28 13:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Knowledge Bridger: Towards Training-free Missing Multi-modality Completion はコメントを受け付けていません

MVSAnywhere: Zero-Shot Multi-View Stereo

要約

複数のビューからの正確な深さを計算することは、コンピュータービジョンにおける基本的で長年の課題です。
ただし、ほとんどの既存のアプローチでは、さまざまなドメインやシーンタイプ(屋内対屋外など)にわたってよく一般化されていません。
汎用マルチビューステレオモデルのトレーニングは挑戦的であり、いくつかの質問を提起します。
変圧器ベースのアーキテクチャを最適に使用する方法、さまざまな数の入力ビューがある場合に追加のメタデータを組み込む方法、および異なるシーンで大きく異なり、通常は先験的に知られていない有効な深さの範囲を推定する方法
これらの問題に対処するために、多様なドメインと深度範囲を一般化することでどこでも作業を目的とする斬新で多目的なマルチビューステレオアーキテクチャであるMVSAを紹介します。
MVSAは、単眼とマルチビューのキューを適応コストボリュームと組み合わせて、スケール関連の問題に対処します。
既存のマルチビューステレオと単眼ベースラインを上回る、堅牢なマルチビュー深度ベンチマークに関する最先端のゼロショット深度推定を示します。

要約(オリジナル)

Computing accurate depth from multiple views is a fundamental and longstanding challenge in computer vision. However, most existing approaches do not generalize well across different domains and scene types (e.g. indoor vs. outdoor). Training a general-purpose multi-view stereo model is challenging and raises several questions, e.g. how to best make use of transformer-based architectures, how to incorporate additional metadata when there is a variable number of input views, and how to estimate the range of valid depths which can vary considerably across different scenes and is typically not known a priori? To address these issues, we introduce MVSA, a novel and versatile Multi-View Stereo architecture that aims to work Anywhere by generalizing across diverse domains and depth ranges. MVSA combines monocular and multi-view cues with an adaptive cost volume to deal with scale-related issues. We demonstrate state-of-the-art zero-shot depth estimation on the Robust Multi-View Depth Benchmark, surpassing existing multi-view stereo and monocular baselines.

arxiv情報

著者 Sergio Izquierdo,Mohamed Sayed,Michael Firman,Guillermo Garcia-Hernando,Daniyar Turmukhambetov,Javier Civera,Oisin Mac Aodha,Gabriel Brostow,Jamie Watson
発行日 2025-03-28 13:46:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MVSAnywhere: Zero-Shot Multi-View Stereo はコメントを受け付けていません

NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving

要約

マルチビュー3D視覚接地は、自動運転車が自然言語を解釈し、複雑な環境でターゲットオブジェクトをローカライズするために重要です。
ただし、既存のデータセットとメソッドは、粗粒の言語の指示と、言語的理解と3D幾何学的推論の統合が不十分です。
この目的のために、自律運転におけるマルチビュー3D視覚接地のための最初の大規模なベンチマークであるNugroundingを紹介します。
ナグラウンドを構築して階層的なマルチレベルの命令を生成し、人間の指導パターンの包括的なカバレッジを確保するための接地(HOG)メソッドの階層を提示します。
この挑戦的なデータセットに取り組むために、マルチモーダルLLM(MLLM)の指導理解能力と専門の検出モデルの正確なローカリゼーション能力をシームレスに組み合わせた新しいパラダイムを提案します。
私たちのアプローチでは、2つのデカップされたタスクトークンと、3D幾何情報情報とセマンティック命令を集約するためのコンテキストクエリを紹介し、その後、正確なローカリゼーションのための空間セマンチックな特徴融合を改良するための融合デコーダーが続きます。
広範な実験は、この方法が、代表的な3Dシーンの理解方法から積極的なマージンで適応したベースラインを大幅に上回り、50.8%と54.7%の改善で0.59、リコールで0.64を達成することを示しています。

要約(オリジナル)

Multi-view 3D visual grounding is critical for autonomous driving vehicles to interpret natural languages and localize target objects in complex environments. However, existing datasets and methods suffer from coarse-grained language instructions, and inadequate integration of 3D geometric reasoning with linguistic comprehension. To this end, we introduce NuGrounding, the first large-scale benchmark for multi-view 3D visual grounding in autonomous driving. We present a Hierarchy of Grounding (HoG) method to construct NuGrounding to generate hierarchical multi-level instructions, ensuring comprehensive coverage of human instruction patterns. To tackle this challenging dataset, we propose a novel paradigm that seamlessly combines instruction comprehension abilities of multi-modal LLMs (MLLMs) with precise localization abilities of specialist detection models. Our approach introduces two decoupled task tokens and a context query to aggregate 3D geometric information and semantic instructions, followed by a fusion decoder to refine spatial-semantic feature fusion for precise localization. Extensive experiments demonstrate that our method significantly outperforms the baselines adapted from representative 3D scene understanding methods by a significant margin and achieves 0.59 in precision and 0.64 in recall, with improvements of 50.8% and 54.7%.

arxiv情報

著者 Fuhao Li,Huan Jin,Bin Gao,Liaoyuan Fan,Lihui Jiang,Long Zeng
発行日 2025-03-28 13:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving はコメントを受け付けていません

EndoLRMGS: Complete Endoscopic Scene Reconstruction combining Large Reconstruction Modelling and Gaussian Splatting

要約

手術シーンの完全な再構築は、ロボット支援手術(RAS)にとって非常に重要です。
深さの深さの推定は有望ですが、既存の作業は深さの不連続性と闘っており、オブジェクトの境界で騒々しい予測をもたらし、閉塞された表面を省略した完全な再構成を達成しません。
これらの問題に対処するために、完全な外科シーンの再構築のために、大きな再構成モデ​​リング(LRM)とガウススプラッティング(GS)を組み合わせたEndolRMGを提案します。
GSは変形可能な組織を再構築し、LRMは外科用ツールの3Dモデルを生成し、その後、正確性を強化するために直交視点共同投影最適化(OPJPO)を導入することにより、位置とスケールが最適化されます。
3つのパブリックデータセットからの4つの手術ビデオの実験では、2D投影のツール3Dモデルの交差点(IOU)の交差点(IOU)を40%> 40%改善します。
さらに、EndolRMGSは、ツール投影のPSNRを3.82%から11.07%に改善します。
組織のレンダリング品質も向上し、PSNRは0.46%から49.87%に増加し、SSIMはすべてのテストビデオで1.53%から29.21%に増加します。

要約(オリジナル)

Complete reconstruction of surgical scenes is crucial for robot-assisted surgery (RAS). Deep depth estimation is promising but existing works struggle with depth discontinuities, resulting in noisy predictions at object boundaries and do not achieve complete reconstruction omitting occluded surfaces. To address these issues we propose EndoLRMGS, that combines Large Reconstruction Modelling (LRM) and Gaussian Splatting (GS), for complete surgical scene reconstruction. GS reconstructs deformable tissues and LRM generates 3D models for surgical tools while position and scale are subsequently optimized by introducing orthogonal perspective joint projection optimization (OPjPO) to enhance accuracy. In experiments on four surgical videos from three public datasets, our method improves the Intersection-over-union (IoU) of tool 3D models in 2D projections by>40%. Additionally, EndoLRMGS improves the PSNR of the tools projection from 3.82% to 11.07%. Tissue rendering quality also improves, with PSNR increasing from 0.46% to 49.87%, and SSIM from 1.53% to 29.21% across all test videos.

arxiv情報

著者 Xu Wang,Shuai Zhang,Baoru Huang,Danail Stoyanov,Evangelos B. Mazomenos
発行日 2025-03-28 13:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EndoLRMGS: Complete Endoscopic Scene Reconstruction combining Large Reconstruction Modelling and Gaussian Splatting はコメントを受け付けていません