Differentiable Mobile Display Photometric Stereo

要約

ディスプレイの順調なステレオは、ディスプレイをプログラム可能な光源として使用して、多様な照明条件を備えたシーンを照らします。
最近、微分可能なディスプレイの測光ステレオ(DDPS)は、学習したディスプレイパターンを使用することにより、通常の再構成の精度が改善されたことを実証しました。
ただし、DDPは実用性の制限に直面し、偏光カメラとデスクトップスケールモニターを使用した固定デスクトップイメージングセットアップが必要です。
このホワイトペーパーでは、ディスプレイとカメラで構成される携帯電話を活用する、より実用的な物理学ベースの測光ステレオ、微分可能なモバイルディスプレイの顕微鏡ステレオ(DMDPS)を提案します。
パターンを同時に表示し、高品質のHDR画像をキャプチャするモバイルアプリとメソッドを開発することにより、モバイルデバイスを使用することの制限を克服します。
この手法を使用して、実際の3Dプリントオブジェクトをキャプチャし、微分可能な学習プロセスを介してディスプレイパターンを学習します。
3D印刷されたデータセットと倒れた葉の最初のデータセットの両方でDMDPの有効性を示します。
リーフデータセットには、コンピューターのグラフィックスとビジョンを超えて将来の研究を可能にする可能性のある倒れた葉の再構築された表面正数とアルベドが含まれています。
DMDPSは、実用的な物理ベースの測光ステレオに一歩前進すると考えています。

要約(オリジナル)

Display photometric stereo uses a display as a programmable light source to illuminate a scene with diverse illumination conditions. Recently, differentiable display photometric stereo (DDPS) demonstrated improved normal reconstruction accuracy by using learned display patterns. However, DDPS faced limitations in practicality, requiring a fixed desktop imaging setup using a polarization camera and a desktop-scale monitor. In this paper, we propose a more practical physics-based photometric stereo, differentiable mobile display photometric stereo (DMDPS), that leverages a mobile phone consisting of a display and a camera. We overcome the limitations of using a mobile device by developing a mobile app and method that simultaneously displays patterns and captures high-quality HDR images. Using this technique, we capture real-world 3D-printed objects and learn display patterns via a differentiable learning process. We demonstrate the effectiveness of DMDPS on both a 3D printed dataset and a first dataset of fallen leaves. The leaf dataset contains reconstructed surface normals and albedos of fallen leaves that may enable future research beyond computer graphics and vision. We believe that DMDPS takes a step forward for practical physics-based photometric stereo.

arxiv情報

著者 Gawoon Ban,Hyeongjun Kim,Seokjun Choi,Seungwoo Yoon,Seung-Hwan Baek
発行日 2025-02-07 16:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Differentiable Mobile Display Photometric Stereo はコメントを受け付けていません

Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

要約

拡散モデル(DMS)やビジョン自動回帰モデル(VAR)などの最先端の視覚生成モデルは、非常に現実的な画像を生成します。
以前の作業は、視覚ドメインの仕事に安全ではない(NSFW)コンテンツを緩和しましたが、新しい脅威を特定します。画像に組み込まれたNSFWテキストの生成です。
これには、in辱、人種的中傷、性的に明示的な用語などの攻撃的な言語が含まれ、ユーザーに重大なリスクをもたらします。
すべての最先端のDMS(例:SD3、Flux、Deepfloyd IF)とVAR(例えば、無限)がこの問題に対して脆弱であることを示します。
広範な実験を通じて、視覚コンテンツに効果的な既存の緩和手法は、有害なテキスト生成を防ぎながら、良性のテキスト生成を実質的に分解しないことを実証します。
この脅威に対処するための最初のステップとして、カスタマイズされたデータセットを使用して、主要なDMアーキテクチャの基礎となるテキストエンコーダーの安全性微調整を検討します。
これにより、全体的な画像とテキスト生成の品質を維持しながら、NSFWの生成を抑制します。
最後に、この分野での研究を進めるために、画像のNSFWテキスト生成を評価するためのオープンソースベンチマークであるToxicBenchを紹介します。
ToxicBenchは、有害なプロンプト、新しいメトリック、およびNSFW性と生成品質の両方を評価する評価パイプラインのキュレーションされたデータセットを提供します。
私たちのベンチマークは、テキストからイメージモデルのNSFWテキスト生成を緩和する際の将来の努力を導くことを目的としており、https://github.com/sprintml/toxicbenchで入手できます。

要約(オリジナル)

State-of-the-art visual generation models, such as Diffusion Models (DMs) and Vision Auto-Regressive Models (VARs), produce highly realistic images. While prior work has successfully mitigated Not Safe For Work (NSFW) content in the visual domain, we identify a novel threat: the generation of NSFW text embedded within images. This includes offensive language, such as insults, racial slurs, and sexually explicit terms, posing significant risks to users. We show that all state-of-the-art DMs (e.g., SD3, Flux, DeepFloyd IF) and VARs (e.g., Infinity) are vulnerable to this issue. Through extensive experiments, we demonstrate that existing mitigation techniques, effective for visual content, fail to prevent harmful text generation while substantially degrading benign text generation. As an initial step toward addressing this threat, we explore safety fine-tuning of the text encoder underlying major DM architectures using a customized dataset. Thereby, we suppress NSFW generation while preserving overall image and text generation quality. Finally, to advance research in this area, we introduce ToxicBench, an open-source benchmark for evaluating NSFW text generation in images. ToxicBench provides a curated dataset of harmful prompts, new metrics, and an evaluation pipeline assessing both NSFW-ness and generation quality. Our benchmark aims to guide future efforts in mitigating NSFW text generation in text-to-image models and is available at https://github.com/sprintml/ToxicBench

arxiv情報

著者 Aditya Kumar,Tom Blanchard,Adam Dziedzic,Franziska Boenisch
発行日 2025-02-07 16:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images はコメントを受け付けていません

Explicit Relational Reasoning Network for Scene Text Detection

要約

接続コンポーネント(CC)は、人間の読書直観と整合する適切なテキスト形状の表現です。
ただし、CCベースのテキスト検出方法は、最近、時間のかかる後処理を排除するのが難しい発達的ボトルネックに直面しています。
この問題に対処するために、明示的なリレーショナル推論ネットワーク(ERRNET)を導入して、ポスト処理なしでコンポーネント関係をエレガントにモデル化します。
具体的には、最初に各テキストインスタンスを複数の順序付けされたテキストコンポーネントとして表し、次にこれらのコンポーネントを連続運動のオブジェクトとして扱います。
このようにして、シーンのテキストの検出は、追跡問題と革新的に見ることができます。
この観点から、エンドツーエンドの追跡デコーダーを設計して、ポスト処理を完全に分配するCCベースの方法を実現します。
さらに、分類の信頼性とローカリゼーションの品質の間に矛盾があることを観察しているため、ローカリゼーションの品質を迅速かつ正確に評価するためのポリゴンモンテカルロ法を提案します。
これに基づいて、職位を維持した分類損失を導入して、ERRNETのタスクに配置された学習を導きます。
挑戦的なベンチマークの実験は、私たちのerrnetの有効性を示しています。
非常に競争力のある推論速度を保持しながら、一貫して最先端の精度を達成します。

要約(オリジナル)

Connected component (CC) is a proper text shape representation that aligns with human reading intuition. However, CC-based text detection methods have recently faced a developmental bottleneck that their time-consuming post-processing is difficult to eliminate. To address this issue, we introduce an explicit relational reasoning network (ERRNet) to elegantly model the component relationships without post-processing. Concretely, we first represent each text instance as multiple ordered text components, and then treat these components as objects in sequential movement. In this way, scene text detection can be innovatively viewed as a tracking problem. From this perspective, we design an end-to-end tracking decoder to achieve a CC-based method dispensing with post-processing entirely. Additionally, we observe that there is an inconsistency between classification confidence and localization quality, so we propose a Polygon Monte-Carlo method to quickly and accurately evaluate the localization quality. Based on this, we introduce a position-supervised classification loss to guide the task-aligned learning of ERRNet. Experiments on challenging benchmarks demonstrate the effectiveness of our ERRNet. It consistently achieves state-of-the-art accuracy while holding highly competitive inference speed.

arxiv情報

著者 Yuchen Su,Zhineng Chen,Yongkun Du,Zhilong Ji,Kai Hu,Jinfeng Bai,Xieping Gao
発行日 2025-02-07 16:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Explicit Relational Reasoning Network for Scene Text Detection はコメントを受け付けていません

DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions

要約

Vision-Language Models(VLMS)は、視覚表現とテキスト表現を調整し、2D医療イメージングで高性能のゼロショット分類と画像テキスト検索を可能にします。
ただし、VLMSを3D医療イメージングに拡張することは、計算上困難なままです。
既存の3D VLMは、自己attentionの二次の複雑さ、またはカーネルサイズが増加するにつれて過剰なパラメーターとフロップを必要とする3D畳み込みのために計算上高価な視覚変圧器(VITS)に依存しています。
DCFormerを紹介します。これは、深さ、高さ、幅に沿って3D畳み込みを3つの並列1D畳み込みに因数分解する効率的な3D医療画像エンコーダーです。
この設計により、空間情報が保存され、計算コストが大幅に削減されます。
クリップベースのビジョン言語フレームワークに統合されたDCFORMERは、CT-Rateで評価されます。これは、18の病理間でゼロショットマルチアブノマリティ検出のために、50,188ペアの3D胸部CTボリュームと放射線学レポートのデータセットで評価されます。
VIT、Convnext、Poolformer、およびTransUnetと比較して、DCFORMERは優れた効率と精度を達成し、DCFORFOR-TINYは62.0%の精度と46.3%のF1スコアに達し、パラメーターが大幅に少なくなります。
これらの結果は、Scalable、臨床的に展開可能な3D医療VLMSのDCFormerの可能性を強調しています。
私たちのコードは公開されます。

要約(オリジナル)

Vision-language models (VLMs) align visual and textual representations, enabling high-performance zero-shot classification and image-text retrieval in 2D medical imaging. However, extending VLMs to 3D medical imaging remains computationally challenging. Existing 3D VLMs rely on Vision Transformers (ViTs), which are computationally expensive due to self-attention’s quadratic complexity, or 3D convolutions, which demand excessive parameters and FLOPs as kernel size increases. We introduce DCFormer, an efficient 3D medical image encoder that factorizes 3D convolutions into three parallel 1D convolutions along depth, height, and width. This design preserves spatial information while significantly reducing computational cost. Integrated into a CLIP-based vision-language framework, DCFormer is evaluated on CT-RATE, a dataset of 50,188 paired 3D chest CT volumes and radiology reports, for zero-shot multi-abnormality detection across 18 pathologies. Compared to ViT, ConvNeXt, PoolFormer, and TransUNet, DCFormer achieves superior efficiency and accuracy, with DCFormer-Tiny reaching 62.0% accuracy and a 46.3% F1-score while using significantly fewer parameters. These results highlight DCFormer’s potential for scalable, clinically deployable 3D medical VLMs. Our codes will be publicly available.

arxiv情報

著者 Gorkem Can Ates,Kuang Gong,Wei Shao
発行日 2025-02-07 17:10:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions はコメントを受け付けていません

Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs

要約

視覚表現からの時間を理解することは基本的な認知スキルですが、マルチモーダルの大手言語モデル(MLLM)にとっては課題のままです。
この作業では、アナログクロックと年間カレンダーを介して時間と日付を解釈する際にMLLMの機能を調査します。
これを容易にするために、2つのサブセットで構成される構造化されたデータセットをキュレーションしました:1)$ \ textit {clockqa} $。
-HAND CLOCKS $-$と時間関連の質問とペアリング。
および2)$ \ textit {calendarqa} $。これは、一般的に既知の日付(クリスマス、元日)から計算派生(100年目または153日目の15日目)に至るまでの質問を含む年間カレンダー画像で構成されています。
時間関連の視覚データを提示した場合、MLLMが視覚認識、数値推論、および時間的推論を実行する方法を分析することを目指しています。
私たちの評価は、最近の進歩にもかかわらず、時間を確実に理解することはMLLMにとって重要な課題であることを示しています。

要約(オリジナル)

Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) $\textit{ClockQA}$, which comprises various types of clock styles$-$standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks$-$paired with time related questions; and 2) $\textit{CalendarQA}$, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year’s Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.

arxiv情報

著者 Rohit Saxena,Aryo Pradipta Gema,Pasquale Minervini
発行日 2025-02-07 17:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs はコメントを受け付けていません

Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds

要約

テキストからイメージへの拡散モデルは、任意のテキストプロンプトから現実的な画像を生成する際に顕著な能力を示しています。
しかし、彼らはしばしば、「2匹の犬」や「ボウルの右側にあるペンギン」などの組成プロンプトに対して一貫性のない結果をもたらします。
これらの矛盾を理解することは、信頼できる画像生成にとって重要です。
この論文では、これらの矛盾における初期ノイズの重要な役割を強調しています。特定のノイズパターンは、他のノイズプロンプトよりも信頼性が高くなります。
私たちの分析では、異なる初期のランダムシードがモデルを導く傾向があることが、オブジェクトを明確な画像領域に配置する傾向があり、シードに関連するカメラアングルと画像構成の特定のパターンに付着する可能性があります。
モデルの組成能力を向上させるために、これらの信頼できるケースをマイニングする方法を提案し、手動注釈を必要とせずに生成された画像のキュレーションされたトレーニングセットをもたらします。
これらの生成された画像のテキストから画像へのモデルを微調整することにより、それらの組成能力を大幅に強化します。
数値組成の場合、安定した拡散とPixart- {\ alpha}でそれぞれ29.3%と19.5%の相対的な増加が観察されます。
空間構成の利益はさらに大きな利益を得ており、安定した拡散で60.7%、Pixart- {\ alpha}で21.1%が見られます。

要約(オリジナル)

Text-to-image diffusion models have demonstrated remarkable capability in generating realistic images from arbitrary text prompts. However, they often produce inconsistent results for compositional prompts such as ‘two dogs’ or ‘a penguin on the right of a bowl’. Understanding these inconsistencies is crucial for reliable image generation. In this paper, we highlight the significant role of initial noise in these inconsistencies, where certain noise patterns are more reliable for compositional prompts than others. Our analyses reveal that different initial random seeds tend to guide the model to place objects in distinct image areas, potentially adhering to specific patterns of camera angles and image composition associated with the seed. To improve the model’s compositional ability, we propose a method for mining these reliable cases, resulting in a curated training set of generated images without requiring any manual annotation. By fine-tuning text-to-image models on these generated images, we significantly enhance their compositional capabilities. For numerical composition, we observe relative increases of 29.3% and 19.5% for Stable Diffusion and PixArt-{\alpha}, respectively. Spatial composition sees even larger gains, with 60.7% for Stable Diffusion and 21.1% for PixArt-{\alpha}.

arxiv情報

著者 Shuangqi Li,Hieu Le,Jingyi Xu,Mathieu Salzmann
発行日 2025-02-07 17:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds はコメントを受け付けていません

Grounding Continuous Representations in Geometry: Equivariant Neural Fields

要約

条件付きニューラルフィールド(CNF)は、各データサンプルを共有バックボーンニューラルフィールド(NEF)を条件付けしてサンプルを再構築する潜在変数に関連付けることにより、連続信号表現としてますます活用されています。
ただし、既存のCNFアーキテクチャは、分類やセグメンテーションなど、細粒の幾何学的推論を必要とするタスクでこの潜在的な下流を使用する場合、制限に直面しています。
これは、CNFSの潜在空間における幾何学的情報の明示的なモデリングの不足(特徴の信号の局所性または特徴の方向)の欠如に起因すると仮定します。
このように、幾何学的に形成された交差時点を使用して、幾何学的変数(特徴の潜在点クラウド)にnefを条件付けるために、幾何学的に形成された交差時点を使用する新しいCNFアーキテクチャである等衛生神経界(ENF)を提案します。
フィールドに。
このアプローチは、フィールドと潜在性の両方がジオメトリに基づいており、変換法に適している操縦性特性を誘導することを示します。フィールドが変換された場合、潜在表現はそれに応じて変換され、逆も同様です。
重要なことに、この等寛容の関係により、潜在性が(1)幾何学的パターンを忠実に表現し、潜在空間での幾何学的推論を可能にし、(2)同様の局所パターンを重量共有し、フィールドのデータセットを効率的に学習できるようになります。
分類、セグメンテーション、予測、再構築、生成モデリングなど、さまざまなタスクでこれらの主要な特性を検証し、幾何学のない潜在スペースを使用したベースライン上の明確な改善を示します。
提出に添付されたコードhttps://github.com/dafidofff/enf-jax。
クリーンで最小限のリポジトリのコードhttps://github.com/david-knigge/enf-min-jax。

要約(オリジナル)

Conditional Neural Fields (CNFs) are increasingly being leveraged as continuous signal representations, by associating each data-sample with a latent variable that conditions a shared backbone Neural Field (NeF) to reconstruct the sample. However, existing CNF architectures face limitations when using this latent downstream in tasks requiring fine-grained geometric reasoning, such as classification and segmentation. We posit that this results from lack of explicit modelling of geometric information (e.g., locality in the signal or the orientation of a feature) in the latent space of CNFs. As such, we propose Equivariant Neural Fields (ENFs), a novel CNF architecture which uses a geometry-informed cross-attention to condition the NeF on a geometric variable–a latent point cloud of features–that enables an equivariant decoding from latent to field. We show that this approach induces a steerability property by which both field and latent are grounded in geometry and amenable to transformation laws: if the field transforms, the latent representation transforms accordingly–and vice versa. Crucially, this equivariance relation ensures that the latent is capable of (1) representing geometric patterns faithfully, allowing for geometric reasoning in latent space, and (2) weight-sharing over similar local patterns, allowing for efficient learning of datasets of fields. We validate these main properties in a range of tasks including classification, segmentation, forecasting, reconstruction and generative modelling, showing clear improvement over baselines with a geometry-free latent space. Code attached to submission https://github.com/Dafidofff/enf-jax. Code for a clean and minimal repo https://github.com/david-knigge/enf-min-jax.

arxiv情報

著者 David R Wessels,David M Knigge,Samuele Papa,Riccardo Valperga,Sharvaree Vadgama,Efstratios Gavves,Erik J Bekkers
発行日 2025-02-07 17:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Grounding Continuous Representations in Geometry: Equivariant Neural Fields はコメントを受け付けていません

Investigating the impact of kernel harmonization and deformable registration on inspiratory and expiratory chest CT images for people with COPD

要約

ペアの吸入性排気CTスキャンにより、COPD患者の肺組織運動を分析することにより、小気道疾患と肺気腫によるガストラッピングの定量化が可能になります。
これらのスキャンの変形可能な画像登録は、地域の肺体積変化を評価します。
ただし、ペアスキャン間の再構築カーネルの変動により、定量分析でエラーが発生します。
この作業では、再構成カーネルを調和させ、COPDGene研究から取得したデータを使用して変形可能な画像登録を実行する2段階のパイプラインを提案しています。
サイクル生成敵対的なネットワーク(GAN)を使用して、ハードカーネル(骨)で再構築された吸気スキャンを調和させて、ソフトカーネル(標準)で再構築された呼気スキャンに合わせます。
次に、呼気スキャンを吸気スキャンに変形させます。
調和の前後に公開されているセグメンテーションアルゴリズムを使用して肺気腫を測定することにより、調和を検証します。
結果は、調和が肺気腫測定の一貫性を大幅に減らし、肺気腫スコアの中央値を10.479%から3.039%に減少させ、標準カーネルからの参照の中央値スコアがターゲットとして1.305%減少することを示しています。
登録の精度は、肺気腫領域間で吸気、呼気、および変形した画像に対するサイコロの重複を介して評価されます。
吸気性肺気腫マスクと変形できる肺気腫マスクの間のサイコウ係数は、登録段階で大幅に増加します(p <0.001)。 さらに、変形可能な登録はカーネルのバリエーションに対して堅牢であることを示します。

要約(オリジナル)

Paired inspiratory-expiratory CT scans enable the quantification of gas trapping due to small airway disease and emphysema by analyzing lung tissue motion in COPD patients. Deformable image registration of these scans assesses regional lung volumetric changes. However, variations in reconstruction kernels between paired scans introduce errors in quantitative analysis. This work proposes a two-stage pipeline to harmonize reconstruction kernels and perform deformable image registration using data acquired from the COPDGene study. We use a cycle generative adversarial network (GAN) to harmonize inspiratory scans reconstructed with a hard kernel (BONE) to match expiratory scans reconstructed with a soft kernel (STANDARD). We then deformably register the expiratory scans to inspiratory scans. We validate harmonization by measuring emphysema using a publicly available segmentation algorithm before and after harmonization. Results show harmonization significantly reduces emphysema measurement inconsistencies, decreasing median emphysema scores from 10.479% to 3.039%, with a reference median score of 1.305% from the STANDARD kernel as the target. Registration accuracy is evaluated via Dice overlap between emphysema regions on inspiratory, expiratory, and deformed images. The Dice coefficient between inspiratory emphysema masks and deformably registered emphysema masks increases significantly across registration stages (p<0.001). Additionally, we demonstrate that deformable registration is robust to kernel variations.

arxiv情報

著者 Aravind R. Krishnan,Yihao Liu,Kaiwen Xu,Michael E. Kim,Lucas W. Remedios,Gaurav Rudravaram,Adam M. Saunders,Bradley W. Richmond,Kim L. Sandler,Fabien Maldonado,Bennett A. Landman,Lianrui Zuo
発行日 2025-02-07 17:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Investigating the impact of kernel harmonization and deformable registration on inspiratory and expiratory chest CT images for people with COPD はコメントを受け付けていません

Self-supervised Conformal Prediction for Uncertainty Quantification in Imaging Problems

要約

ほとんどの画像回復の問題は、条件が不適切または不適切であるため、重大な不確実性が含まれます。
この不確実性を定量化することは、特に再構築された画像が重要な決定と科学に情報を提供する場合、実験結果を確実に解釈するために重要です。
ただし、ほとんどの既存の画像修復方法は、不確実性の定量化に失敗するか、非常に不正確な推定値を提供します。
適合予測は最近、推定器に、建設によりほぼ正確な限界カバレッジを持つ不確実性の定量化能力を装備するための柔軟なフレームワークとして浮上しました。
これを達成するために、コンフォーマル予測は、キャリブレーションのための豊富なグラウンドトゥルースデータに依存しています。
ただし、画像の修復の問題では、信頼できるグラウンドトゥルースデータは、多くの場合、高価であるか、獲得することができません。
また、グラウンドトゥルースデータへの依存は、キャリブレーションと展開の間の分布シフトの状況で大きなバイアスを導入する可能性があります。
このペーパーは、スタインの偏見のないリスク推定器(確かに)を活用する自己監督のコンフォーマル予測方法を提案することにより、観察された騒々しい測定から直接自己調整し、必要なものを妨害する自己監視のコンフォーマル予測方法を提案することにより、画像修復問題の適合予測に対するより堅牢なアプローチを開発しようとしています。
グラウンドトゥルース。
この方法は、条件が整っていない線形イメージングの逆問題に適しており、測定データから直接トレーニングできる最新の自己監視画像修復技術で使用すると、特に強力です。
提案されたアプローチは、画像の除去と脱生の数値実験を通じて実証されており、グラウンドトゥルースデータを使用して監視されたコンフォーマル予測によって得られたものと同等の結果を提供します。

要約(オリジナル)

Most image restoration problems are ill-conditioned or ill-posed and hence involve significant uncertainty. Quantifying this uncertainty is crucial for reliably interpreting experimental results, particularly when reconstructed images inform critical decisions and science. However, most existing image restoration methods either fail to quantify uncertainty or provide estimates that are highly inaccurate. Conformal prediction has recently emerged as a flexible framework to equip any estimator with uncertainty quantification capabilities that, by construction, have nearly exact marginal coverage. To achieve this, conformal prediction relies on abundant ground truth data for calibration. However, in image restoration problems, reliable ground truth data is often expensive or not possible to acquire. Also, reliance on ground truth data can introduce large biases in situations of distribution shift between calibration and deployment. This paper seeks to develop a more robust approach to conformal prediction for image restoration problems by proposing a self-supervised conformal prediction method that leverages Stein’s Unbiased Risk Estimator (SURE) to self-calibrate itself directly from the observed noisy measurements, bypassing the need for ground truth. The method is suitable for any linear imaging inverse problem that is ill-conditioned, and it is especially powerful when used with modern self-supervised image restoration techniques that can also be trained directly from measurement data. The proposed approach is demonstrated through numerical experiments on image denoising and deblurring, where it delivers results that are remarkably accurate and comparable to those obtained by supervised conformal prediction with ground truth data.

arxiv情報

著者 Jasper M. Everink,Bernardin Tamo Amougou,Marcelo Pereyra
発行日 2025-02-07 18:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H35, cs.CV, stat.ME | Self-supervised Conformal Prediction for Uncertainty Quantification in Imaging Problems はコメントを受け付けていません

Counting Fish with Temporal Representations of Sonar Video

要約

サケの脱出の正確な推定 – 上流に移動する魚の数 – は、保全と漁業管理の重要なデータです。
高解像度イメージングソナーハードウェアを使用したサーモンカウントの既存の方法は、侵襲的であり、コンピュータービジョン処理と互換性があります。
この分野での以前の作業では、自動化されたサーモンカウントのためのオブジェクトの検出と追跡ベースの方法が利用されています。
ただし、これらの手法は、フィールドでの計算と接続が限られているため、多くのソナー展開サイトにはアクセスできません。
数百フレームのイメージングソナービデオを単一の画像に圧縮する時間的表現の分析に基づいて、魚カウントのための代替の軽量コンピュータービジョン方法を提案します。
ResNet-18モデルを使用して、エコーググラムから直接200フレームの時間窓以内に上流と下流のカウントを予測し、ドメイン固有の画像増強のセットと弱く監視されたトレーニングプロトコルを提案して、結果をさらに改善します。
アラスカのケナイ川からの代表的なデータで23%のカウントエラーを達成し、アプローチの実現可能性を示しています。

要約(オリジナル)

Accurate estimates of salmon escapement – the number of fish migrating upstream to spawn – are key data for conservation and fishery management. Existing methods for salmon counting using high-resolution imaging sonar hardware are non-invasive and compatible with computer vision processing. Prior work in this area has utilized object detection and tracking based methods for automated salmon counting. However, these techniques remain inaccessible to many sonar deployment sites due to limited compute and connectivity in the field. We propose an alternative lightweight computer vision method for fish counting based on analyzing echograms – temporal representations that compress several hundred frames of imaging sonar video into a single image. We predict upstream and downstream counts within 200-frame time windows directly from echograms using a ResNet-18 model, and propose a set of domain-specific image augmentations and a weakly-supervised training protocol to further improve results. We achieve a count error of 23% on representative data from the Kenai River in Alaska, demonstrating the feasibility of our approach.

arxiv情報

著者 Kai Van Brunt,Justin Kay,Timm Haucke,Pietro Perona,Grant Van Horn,Sara Beery
発行日 2025-02-07 18:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Counting Fish with Temporal Representations of Sonar Video はコメントを受け付けていません