Robust Tumor Segmentation with Hyperspectral Imaging and Graph Neural Networks

要約

外科的癌切除中に腫瘍と健康な組織の境界を区別することは、大きな課題をもたらします。
近年、機械学習(ML)と組み合わせたハイパースペクトルイメージング(HSI)が有望なソリューションとして浮上しています。
ただし、スペクトルドメイン内に含まれる広範な情報により、ほとんどのMLアプローチは、主に個々のHSI(スーパー)ピクセルまたはタイルを分類し、空間的コンテキストを考慮せずに分類します。
この論文では、より堅牢でスムーズなセグメンテーションのために、タイルの空間的コンテキストを活用する改善された方法論を提案します。
タイルの不規則な形状に対処するために、グラフニューラルネットワーク(GNN)を利用して、近隣の地域全体でコンテキスト情報を伝播します。
グラフ内の各タイルの特徴は、畳み込みニューラルネットワーク(CNN)を使用して抽出されます。これは、後続のGNNと同時にトレーニングされます。
さらに、トレーニング画像の低品質領域に対するトレーニング手順の堅牢性を高めるために、ローカル画像品質メトリックを損失関数に組み込みます。
30人の患者からの51のHSI画像で構成される臨床ex vivoデータセットを使用して、提案された方法の優位性を実証します。
限られたデータセットにもかかわらず、GNNベースのモデルは、以前に見えなかった患者の画像でさえ、健康な組織と腫瘍組織を正確に区別し、コンテキストと腫瘍のアプローチを大幅に上回ります。
さらに、慎重に設計された損失関数は、ローカルな画像品質を考慮して追加の改善をもたらすことを示しています。
私たちの調査結果は、コンテキストを認識しているGNNアルゴリズムがHSI画像の腫瘍の境界を堅牢に発見し、最終的にはより良い手術の成功と患者の転帰に貢献できることを示しています。

要約(オリジナル)

Segmenting the boundary between tumor and healthy tissue during surgical cancer resection poses a significant challenge. In recent years, Hyperspectral Imaging (HSI) combined with Machine Learning (ML) has emerged as a promising solution. However, due to the extensive information contained within the spectral domain, most ML approaches primarily classify individual HSI (super-)pixels, or tiles, without taking into account their spatial context. In this paper, we propose an improved methodology that leverages the spatial context of tiles for more robust and smoother segmentation. To address the irregular shapes of tiles, we utilize Graph Neural Networks (GNNs) to propagate context information across neighboring regions. The features for each tile within the graph are extracted using a Convolutional Neural Network (CNN), which is trained simultaneously with the subsequent GNN. Moreover, we incorporate local image quality metrics into the loss function to enhance the training procedure’s robustness against low-quality regions in the training images. We demonstrate the superiority of our proposed method using a clinical ex vivo dataset consisting of 51 HSI images from 30 patients. Despite the limited dataset, the GNN-based model significantly outperforms context-agnostic approaches, accurately distinguishing between healthy and tumor tissues, even in images from previously unseen patients. Furthermore, we show that our carefully designed loss function, accounting for local image quality, results in additional improvements. Our findings demonstrate that context-aware GNN algorithms can robustly find tumor demarcations on HSI images, ultimately contributing to better surgery success and patient outcome.

arxiv情報

著者 Mayar Lotfy Mostafa,Anna Alperovich,Tommaso Giannantonio,Bjorn Barz,Xiaohan Zhang,Felix Holm,Nassir Navab,Felix Boehm,Carolin Schwamborn,Thomas K. Hoffmann,Patrick J. Schuler
発行日 2025-02-20 13:12:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Robust Tumor Segmentation with Hyperspectral Imaging and Graph Neural Networks はコメントを受け付けていません

Text-to-Image Rectified Flow as Plug-and-Play Priors

要約

大規模な拡散モデルは、生成タスクで顕著なパフォーマンスを達成しています。
これらのモデルは、最初のトレーニングアプリケーションを超えて、多用途のプラグアンドプレイプライエアとして機能する能力を証明しています。
たとえば、2D拡散モデルは、3D暗黙モデルを最適化するための損失関数として機能します。
生成モデルの新しいクラスである修正されたフローは、ソースからターゲット分布への線形進行を実施し、さまざまなドメインで優れたパフォーマンスを実証しています。
拡散ベースの方法と比較して、整流されたフローアプローチは、生成の品質と効率性の点で上回り、推論の手順が少なくなります。
この作業では、整流されたフローベースの方法が拡散モデルと同様の機能を提供することを実証する理論的および実験的証拠を提示します。
拡散前の拡散前の生成機能に加えて、整流フローモデルの固有の時間変容特性によって動機付けられていることに加えて、この方法のバリアントはさらに画像の反転を実行できます。
実験的に、整理型の流れベースのプライアーは、テキストから3Dの世代において、拡散対応物(SDSおよびVSD損失)よりも優れています。
また、私たちの方法は、画像の反転と編集で競争力のあるパフォーマンスを表示します。

要約(オリジナル)

Large-scale diffusion models have achieved remarkable performance in generative tasks. Beyond their initial training applications, these models have proven their ability to function as versatile plug-and-play priors. For instance, 2D diffusion models can serve as loss functions to optimize 3D implicit models. Rectified flow, a novel class of generative models, enforces a linear progression from the source to the target distribution and has demonstrated superior performance across various domains. Compared to diffusion-based methods, rectified flow approaches surpass in terms of generation quality and efficiency, requiring fewer inference steps. In this work, we present theoretical and experimental evidence demonstrating that rectified flow based methods offer similar functionalities to diffusion models – they can also serve as effective priors. Besides the generative capabilities of diffusion priors, motivated by the unique time-symmetry properties of rectified flow models, a variant of our method can additionally perform image inversion. Experimentally, our rectified flow-based priors outperform their diffusion counterparts – the SDS and VSD losses – in text-to-3D generation. Our method also displays competitive performance in image inversion and editing.

arxiv情報

著者 Xiaofeng Yang,Cheng Chen,Xulei Yang,Fayao Liu,Guosheng Lin
発行日 2025-02-20 13:17:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Text-to-Image Rectified Flow as Plug-and-Play Priors はコメントを受け付けていません

PFDiff: Training-Free Acceleration of Diffusion Models Combining Past and Future Scores

要約

拡散確率モデル(DPMS)は画像生成に顕著な可能性を示していますが、それらのサンプリング効率は、多数の除去ステップの必要性によって妨げられています。
ほとんどの既存のソリューションは、高速ODEソルバーを提案することにより、サンプリングプロセスを加速します。
ただし、ODEソルバーの避けられない離散化エラーは、関数評価の数(NFE)が少ない場合に大幅に拡大されます。
この作業では、既存の高速ODEソルバーがより少ないNFEで動作できるようにする新しいトレーニングフリーで直交のタイムステップスキップ戦略であるPFDIFFを提案します。
具体的には、PFDIFFは当初、過去の時間ステップからスコア交換を使用して、「スプリングボード」を予測します。
その後、Nesterov Momentumに触発された先見の明の更新とともに、これを「Springboard」とともに使用して、現在の中間状態を迅速に更新します。
このアプローチは、1次ODEソルバーに固有の離散化エラーを修正しながら、不必要なNFEを効果的に削減します。
実験結果は、PFDIFFがさまざまな事前に訓練されたDPMにわたって柔軟な適用性を示し、特に条件付きDPMSに優れており、以前の最先端のトレーニングのない方法を上回っていることを示しています。
たとえば、DDIMをベースラインとして使用して、Imagenet 64×64でDDIMを備えた138.81 FIDと比較して16.46 FID(4 NFE)を達成しました。
コードは\ url {https://github.com/onefly123/pfdiff}で入手できます。

要約(オリジナル)

Diffusion Probabilistic Models (DPMs) have shown remarkable potential in image generation, but their sampling efficiency is hindered by the need for numerous denoising steps. Most existing solutions accelerate the sampling process by proposing fast ODE solvers. However, the inevitable discretization errors of the ODE solvers are significantly magnified when the number of function evaluations (NFE) is fewer. In this work, we propose PFDiff, a novel training-free and orthogonal timestep-skipping strategy, which enables existing fast ODE solvers to operate with fewer NFE. Specifically, PFDiff initially utilizes score replacement from past time steps to predict a “springboard’. Subsequently, it employs this “springboard’ along with foresight updates inspired by Nesterov momentum to rapidly update current intermediate states. This approach effectively reduces unnecessary NFE while correcting for discretization errors inherent in first-order ODE solvers. Experimental results demonstrate that PFDiff exhibits flexible applicability across various pre-trained DPMs, particularly excelling in conditional DPMs and surpassing previous state-of-the-art training-free methods. For instance, using DDIM as a baseline, we achieved 16.46 FID (4 NFE) compared to 138.81 FID with DDIM on ImageNet 64×64 with classifier guidance, and 13.06 FID (10 NFE) on Stable Diffusion with 7.5 guidance scale. Code is available at \url{https://github.com/onefly123/PFDiff}.

arxiv情報

著者 Guangyi Wang,Yuren Cai,Lijiang Li,Wei Peng,Songzhi Su
発行日 2025-02-20 13:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PFDiff: Training-Free Acceleration of Diffusion Models Combining Past and Future Scores はコメントを受け付けていません

Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining

要約

自己監視された単眼深度推定(SSMDE)は、RGB画像シーケンスから深さを学習し、根真実の深さラベルの必要性を排除することにより、単眼画像の密な深度マップを予測することを目的としています。
このアプローチは、監視された方法と比較してデータの収集を簡素化しますが、ランバートの反射率の仮定に違反し、そのような表面での不正確なトレーニングにつながるため、反射面と闘っています。
この問題に取り組むために、さまざまな視点間のカメラジオメトリに導かれ、ピクセルレベルで反射領域を特定するためにトリプレットマイニングを活用することにより、SSMDEの新しいトレーニング戦略を提案します。
提案された反射を受けたトリプレットマイニング損失は、特に非反射領域で深さの精度を維持しながら、局所的な反射領域の不適切な測光誤差の最小化を罰します。
また、学生モデルが反射領域や非反射領域からピクセルレベルの知識を選択的に学習できるようにするリフレクションを意識した知識蒸留方法も組み込んでいます。
これにより、エリア全体で堅牢な深さ推定が行われます。
複数のデータセットの評価結果は、この方法が反射面での深さ品質を効果的に向上させ、最先端のSSMDEベースラインを上回ることを示しています。

要約(オリジナル)

Self-supervised monocular depth estimation (SSMDE) aims to predict the dense depth map of a monocular image, by learning depth from RGB image sequences, eliminating the need for ground-truth depth labels. Although this approach simplifies data acquisition compared to supervised methods, it struggles with reflective surfaces, as they violate the assumptions of Lambertian reflectance, leading to inaccurate training on such surfaces. To tackle this problem, we propose a novel training strategy for an SSMDE by leveraging triplet mining to pinpoint reflective regions at the pixel level, guided by the camera geometry between different viewpoints. The proposed reflection-aware triplet mining loss specifically penalizes the inappropriate photometric error minimization on the localized reflective regions while preserving depth accuracy in non-reflective areas. We also incorporate a reflection-aware knowledge distillation method that enables a student model to selectively learn the pixel-level knowledge from reflective and non-reflective regions. This results in robust depth estimation across areas. Evaluation results on multiple datasets demonstrate that our method effectively enhances depth quality on reflective surfaces and outperforms state-of-the-art SSMDE baselines.

arxiv情報

著者 Wonhyeok Choi,Kyumin Hwang,Wei Peng,Minwoo Choi,Sunghoon Im
発行日 2025-02-20 13:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Self-supervised Monocular Depth Estimation Robust to Reflective Surface Leveraged by Triplet Mining はコメントを受け付けていません

Learned Image Transmission with Hierarchical Variational Autoencoder

要約

このホワイトペーパーでは、階層変動自動エンコーダー(VAE)を利用して、画像伝送のための革新的な階層的ジョイントソースチャネルコーディング(HJSCC)フレームワークを紹介します。
私たちのアプローチは、送信機のボトムアップパスとトップダウンパスの組み合わせを活用して、元の画像の複数の階層表現を自動再生的に生成します。
これらの表現は、JSCCエンコーダーによる送信用のチャネルシンボルに直接マッピングされます。
このフレームワークは、フィードバックリンクを使用してシナリオに拡張し、確率的サンプリングプロセスとしてノイズの多いチャネル上のモデリング送信、およびフィードバックを使用してJSCCの新しい生成定式化を導き出します。
既存のアプローチと比較して、提案されているHJSCCは、トランスミッション帯域幅を動的に調整し、これらの表現をさまざまな量のチャネルシンボルにエンコードすることにより、適応性の向上を提供します。
さまざまな解像度の画像に関する広範な実験は、提案されているモデルが速度延長パフォーマンスの既存のベースラインを上回り、チャネルノイズに対する堅牢性を維持することを示しています。
ソースコードは、受け入れられると利用可能になります。

要約(オリジナル)

In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise. The source code will be made available upon acceptance.

arxiv情報

著者 Guangyi Zhang,Hanlei Li,Yunlong Cai,Qiyu Hu,Guanding Yu,Runmin Zhang
発行日 2025-02-20 14:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Learned Image Transmission with Hierarchical Variational Autoencoder はコメントを受け付けていません

Vision Foundation Models in Medical Image Analysis: Advances and Challenges

要約

Vision Foundation Models(VFMS)、特にVision Transformers(VIT)およびSegment Anything Model(SAM)の迅速な発展は、医療画像分析の分野で大きな進歩を引き起こしました。
これらのモデルは、長距離依存関係をキャプチャし、セグメンテーションタスクで高い一般化を達成する際に、例外的な能力を実証しています。
ただし、これらの大規模なモデルを医療画像分析に適応させると、医療と自然の画像の違い、効率的なモデル適応戦略の必要性、小規模な医療データセットの制限など、いくつかの課題があります。
このペーパーでは、ドメインの適応、モデル圧縮、およびフェデレート学習の課題に焦点を当てた、医療画像セグメンテーションへのVFMの適応に関する最先端の研究をレビューします。
アダプターベースの改善、知識蒸留技術、およびマルチスケールのコンテキスト機能モデリングの最新の開発について説明し、これらのボトルネックを克服するための将来の方向性を提案します。
私たちの分析では、医療イメージ分析に革命を起こし、臨床応用を強化するために、フェデレーション学習やモデル圧縮などの新たな方法論とともに、VFMの可能性を強調しています。
この作業の目標は、現在のアプローチの包括的な概要を提供し、医療画像セグメンテーションにおける革新の次の波を促進できる将来の研究の重要な領域を提案することです。

要約(オリジナル)

The rapid development of Vision Foundation Models (VFMs), particularly Vision Transformers (ViT) and Segment Anything Model (SAM), has sparked significant advances in the field of medical image analysis. These models have demonstrated exceptional capabilities in capturing long-range dependencies and achieving high generalization in segmentation tasks. However, adapting these large models to medical image analysis presents several challenges, including domain differences between medical and natural images, the need for efficient model adaptation strategies, and the limitations of small-scale medical datasets. This paper reviews the state-of-the-art research on the adaptation of VFMs to medical image segmentation, focusing on the challenges of domain adaptation, model compression, and federated learning. We discuss the latest developments in adapter-based improvements, knowledge distillation techniques, and multi-scale contextual feature modeling, and propose future directions to overcome these bottlenecks. Our analysis highlights the potential of VFMs, along with emerging methodologies such as federated learning and model compression, to revolutionize medical image analysis and enhance clinical applications. The goal of this work is to provide a comprehensive overview of current approaches and suggest key areas for future research that can drive the next wave of innovation in medical image segmentation.

arxiv情報

著者 Pengchen Liang,Bin Pu,Haishan Huang,Yiwei Li,Hualiang Wang,Weibo Ma,Qing Chang
発行日 2025-02-20 14:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Vision Foundation Models in Medical Image Analysis: Advances and Challenges はコメントを受け付けていません

YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

要約

Yolo-MSと呼ばれる効率的でパフォーマンスのあるオブジェクト検出器をオブジェクト検出コミュニティに提供することを目指しています。
コアデザインは、さまざまなカーネルサイズの基本ブロックのマルチブランチの特徴と、異なるスケールでのオブジェクトの検出パフォーマンスにどのように影響するかについての一連の調査に基づいています。
結果は、リアルタイムオブジェクト検出器のマルチスケール機能表現を大幅に強化できる新しい戦略です。
作業の有効性を検証するために、Imagenetや事前に訓練されたウェイトなど、他の大規模なデータセットに依存することなく、MS CocoデータセットでYolo-MSを訓練します。
鐘とホイッスルがなければ、私たちのYolo-MSは、Yolo-V7、RTMDET、Yolo-V8を含む最近の最先端のリアルタイムオブジェクト検出器よりも優れています。
Yolo-MSのXSバージョンを例にとると、MS Cocoで42+%のAPスコアを達成できます。これは、同じモデルサイズのRTMDETよりも約2%高くなっています。
さらに、私たちの作業は、他のヨロモデルのプラグアンドプレイモジュールとしても機能します。
通常、我々の方法は、Yolov8-NのAPS、APL、およびAPを18%+、52%+、37%+から20%+、55%+、および40%+から大幅に進歩させ、パラメーターがさらに少ない
とマック。
コードモデルと訓練されたモデルは、https://github.com/fishandwasabi/yolo-msで公開されています。
また、https://github.com/nk-jittorcv/nk-yoloでジッタバージョンを提供しています。

要約(オリジナル)

We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.

arxiv情報

著者 Yuming Chen,Xinbin Yuan,Jiabao Wang,Ruiqi Wu,Xiang Li,Qibin Hou,Ming-Ming Cheng
発行日 2025-02-20 14:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection はコメントを受け付けていません

Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion

要約

透明なオブジェクトの知覚は、多数のロボットタスクに不可欠です。
ただし、透明性オブジェクトの深さを正確にセグメント化および推定すると、複雑な光学特性があるため、困難なままです。
既存の方法は、主に追加の入力または特殊なセンサーを使用して1つのタスクのみを掘り下げ、タスク間の貴重な相互作用とその後の改良プロセスを無視し、最適ではないぼやけた予測につながります。
これらの問題に対処するために、単眼のフレームワークを提案します。これは、単一イメージの入力のみを使用して、透明オブジェクトのセグメンテーションと深さ推定の両方で最初に優れたものです。
具体的には、タスク間のマルチスケール情報を効果的に統合して、新しいセマンティックおよび幾何学的融合モジュールを考案します。
さらに、オブジェクトの人間の認識からインスピレーションを得て、より明確な結果を得るために初期の機能を徐々に改良する反復戦略をさらに組み込みます。
2つの挑戦的な合成および現実世界のデータセットでの実験は、私たちのモデルが最先端のモノクラー、ステレオ、マルチビューの方法を、単一のRGB入力のみで約38.8%-46.2%の大きなマージンで超えていることを示しています。
コードとモデルは、https://github.com/l-jyuan/modestで公開されています。

要約(オリジナル)

Transparent object perception is indispensable for numerous robotic tasks. However, accurately segmenting and estimating the depth of transparent objects remain challenging due to complex optical properties. Existing methods primarily delve into only one task using extra inputs or specialized sensors, neglecting the valuable interactions among tasks and the subsequent refinement process, leading to suboptimal and blurry predictions. To address these issues, we propose a monocular framework, which is the first to excel in both segmentation and depth estimation of transparent objects, with only a single-image input. Specifically, we devise a novel semantic and geometric fusion module, effectively integrating the multi-scale information between tasks. In addition, drawing inspiration from human perception of objects, we further incorporate an iterative strategy, which progressively refines initial features for clearer results. Experiments on two challenging synthetic and real-world datasets demonstrate that our model surpasses state-of-the-art monocular, stereo, and multi-view methods by a large margin of about 38.8%-46.2% with only a single RGB input. Codes and models are publicly available at https://github.com/L-J-Yuan/MODEST.

arxiv情報

著者 Jiangyuan Liu,Hongxuan Ma,Yuxin Guo,Yuhao Zhao,Chi Zhang,Wei Sui,Wei Zou
発行日 2025-02-20 14:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Monocular Depth Estimation and Segmentation for Transparent Object with Iterative Semantic and Geometric Fusion はコメントを受け付けていません

Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It

要約

ラベルスムージング(LS)は、テストの精度を改善するのに効果的で実装が簡単であるため、ニューラルネットワークをトレーニングするための人気のある正則化方法です。
「ハード」のワンホットラベルは、確率の質量を他のクラスに均一に分布させ、過剰フィッティングを減らすことにより、「滑らか」です。
以前の研究では、場合によっては、LSが選択的分類(SC)を分解することができることを示唆しています。ここでは、モデルの不確実性を使用して誤分類を拒否することを目的としています。
この作業では、LSがSCを一貫して劣化させる大規模なタスクとアーキテクチャの拡張範囲にわたって経験的に実証します。
次に、既存の知識のギャップに対処し、ロジットレベルの勾配を分析することによりこの動作の説明を提供します。LSは、予測が正しい可能性が高く、より少ない場合に最大ロジットをより抑制することにより、正しい予測と誤った予測の不確実性ランクの順序付けを分解します。
間違っている可能性が高いとき。
これにより、以前に報告された実験結果が解明され、SCで強力な分類器がパフォーマンスが低下しています。
次に、LSによって引き起こされる失われたSCパフォーマンスを回復するための事後ロジット正規化の経験的有効性を示します。
さらに、勾配分析に戻って、このような正規化が効果的である理由について再び説明します。

要約(オリジナル)

Label smoothing (LS) is a popular regularisation method for training neural networks as it is effective in improving test accuracy and is simple to implement. “Hard” one-hot labels are “smoothed” by uniformly distributing probability mass to other classes, reducing overfitting. Prior work has suggested that in some cases LS can degrade selective classification (SC) — where the aim is to reject misclassifications using a model’s uncertainty. In this work, we first demonstrate empirically across an extended range of large-scale tasks and architectures that LS consistently degrades SC. We then address a gap in existing knowledge, providing an explanation for this behaviour by analysing logit-level gradients: LS degrades the uncertainty rank ordering of correct vs incorrect predictions by suppressing the max logit more when a prediction is likely to be correct, and less when it is likely to be wrong. This elucidates previously reported experimental results where strong classifiers underperform in SC. We then demonstrate the empirical effectiveness of post-hoc logit normalisation for recovering lost SC performance caused by LS. Furthermore, linking back to our gradient analysis, we again provide an explanation for why such normalisation is effective.

arxiv情報

著者 Guoxuan Xia,Olivier Laurent,Gianni Franchi,Christos-Savvas Bouganis
発行日 2025-02-20 15:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It はコメントを受け付けていません

NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization

要約

画像ジオローカリゼーションは、画像の特定の位置を予測するタスクであり、視覚、地理的、文化的文脈を越えて複雑な推論を必要とします。
以前のビジョン言語モデル(VLM)はこのタスクで最高の精度を持っていますが、分析推論のための高品質のデータセットとモデルの不足があります。
最初に、人気の地理的ゲームであるGeoguessrから派生した高品質のデータセットであるNavicluesを作成して、言語から専門家の推論の例を提供します。
このデータセットを使用して、グローバルおよびファイングレインの画像情報を統合する包括的な画像ジオローカリゼーションフレームワークであるNavigを提示します。
言語で推論することにより、NAVIGは、1000未満のトレーニングサンプルを必要としながら、以前の最先端のモデルと比較して平均距離エラーを14%削減します。
データセットとコードは、https://github.com/sparrowzheyuan18/navig/で入手できます。

要約(オリジナル)

Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.

arxiv情報

著者 Zheyuan Zhang,Runze Li,Tasnim Kabir,Jordan Boyd-Graber
発行日 2025-02-20 15:21:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | NAVIG: Natural Language-guided Analysis with Vision Language Models for Image Geo-localization はコメントを受け付けていません