CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation

要約

3Dインスタンスセグメンテーション(3DIS)は大幅に進歩していますが、既存の方法は通常、すべてのオブジェクトクラスが事前に既知であり、均一に分布していると仮定します。
ただし、この仮定は、新しいクラスが徐々に出現し、自然な不均衡を示す動的で現実世界の環境では非現実的です。
いくつかのアプローチはクラスの出現に対処していますが、クラスの不均衡を見落としていることが多く、最適ではないパフォーマンスをもたらします。特にまれなカテゴリで。
この課題に取り組むために、\ textbf {cl} ass-incremental \ textbf {imb} alance-aware \ textbf {3d}の統一されたフレームワークであるClimb-3dを提案します。
確立された模範的なリプレイ(ER)戦略に基づいて、ERだけでは制約されたメモリ条件下で堅牢なパフォーマンスを達成するには不十分であることを示しています。
これを緩和するために、凍結した事前モデルからの予測を活用することにより、以前に学習したカテゴリに監督を拡張する新しい擬似ラベルジェネレーター(PLG)を導入します。
その約束にもかかわらず、PLGは頻繁なクラスに向かってバイアスをかける傾向があります。
したがって、過去のデータへのアクセスを必要とせずに、擬似適応からオブジェクト頻度を推定し、トレーニングバイアスを動的に調整するクラスバランスの取れた再重視(CBR)スキームを提案します。
挑戦的なscannet200データセット、さらにscannetv2でセマンティックセグメンテーションで3DIの3つの増分シナリオを設計および評価します。
私たちのアプローチは、最先端の結果を達成し、例えばセグメンテーションのために最大16.76 \%マップ、セマンティックセグメンテーションのために約30 \%MIOUで最大16.76 \%マップを上回り、頻繁なクラスと希少クラスの両方で強力な一般化を示します。

要約(オリジナル)

While 3D instance segmentation (3DIS) has advanced significantly, existing methods typically assume that all object classes are known in advance and are uniformly distributed. However, this assumption is unrealistic in dynamic, real-world environments where new classes emerge gradually and exhibit natural imbalance. Although some approaches have addressed class emergence, they often overlook class imbalance, resulting in suboptimal performance — particularly on rare categories. To tackle this challenge, we propose CLIMB-3D, a unified framework for \textbf{CL}ass-incremental \textbf{Imb}alance-aware \textbf{3D}IS. Building upon established exemplar replay (ER) strategies, we show that ER alone is insufficient to achieve robust performance under constrained memory conditions. To mitigate this, we introduce a novel pseudo-label generator (PLG) that extends supervision to previously learned categories by leveraging predictions from a frozen prior model. Despite its promise, PLG tends to bias towards frequent classes. Therefore, we propose a class-balanced re-weighting (CBR) scheme, that estimates object frequencies from pseudo-labels and dynamically adjusts training bias — without requiring access to past data. We design and evaluate three incremental scenarios for 3DIS on the challenging ScanNet200 dataset, and additionally on semantic segmentation on ScanNetV2. Our approach achieves state-of-the-art results, surpassing prior work by up to 16.76\% mAP for instance segmentation and approximately 30\% mIoU for semantic segmentation, demonstrating strong generalization across both frequent and rare classes.

arxiv情報

著者 Vishal Thengane,Jean Lahoud,Hisham Cholakkal,Rao Muhammad Anwer,Lu Yin,Xiatian Zhu,Salman Khan
発行日 2025-05-21 14:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation はコメントを受け付けていません

Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models

要約

ビジョン言語モデル(VLM)は、マルチモーダルタスク、特に構成推論(CR)タスクに不可欠であり、視覚とテキストの埋め込みの間のきめ細かいセマンティックな違いを区別する必要があります。
ただし、既存の方法は主にテキストベースのハードネガティブサンプルを生成し、画像ベースのネガティブサンプルの重要性を無視してモデルを微調整し、視覚エンコーダーのトレーニングが不十分であり、最終的にモデルの全体的なパフォーマンスに影響を与えます。
さらに、負のサンプルは通常、難易度を考慮せずに均一に処理され、正のサンプルのアライメントは不十分であり、困難なサンプルペアの整合に課題につながります。
これらの問題に対処するために、適応的なハードネガティブ摂動学習(AHNPL)を提案します。
AHHNPLは、テキストベースのハードネガを視覚ドメインに変換して、モデルをトレーニングするために意味的に妨げられた画像ベースのネガを生成し、それによって全体的なパフォーマンスを向上させます。
AHNPLはまた、マルチモーダルのハードネガティブ損失を使用して対照的な学習アプローチを導入して、各モダリティ内のハードネガのモデルの識別を改善し、サンプルの難易度に応じてコントラストマージンを調整して挑戦的なサンプルペアの区別を強化する動的マージン損失を改善します。
3つのパブリックデータセットでの実験は、私たちの方法が複雑なCRタスクでVLMSのパフォーマンスを効果的に向上させることを示しています。
ソースコードは、https://github.com/nynu-bdai/ahnplで入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) are essential for multimodal tasks, especially compositional reasoning (CR) tasks, which require distinguishing fine-grained semantic differences between visual and textual embeddings. However, existing methods primarily fine-tune the model by generating text-based hard negative samples, neglecting the importance of image-based negative samples, which results in insufficient training of the visual encoder and ultimately impacts the overall performance of the model. Moreover, negative samples are typically treated uniformly, without considering their difficulty levels, and the alignment of positive samples is insufficient, which leads to challenges in aligning difficult sample pairs. To address these issues, we propose Adaptive Hard Negative Perturbation Learning (AHNPL). AHNPL translates text-based hard negatives into the visual domain to generate semantically disturbed image-based negatives for training the model, thereby enhancing its overall performance. AHNPL also introduces a contrastive learning approach using a multimodal hard negative loss to improve the model’s discrimination of hard negatives within each modality and a dynamic margin loss that adjusts the contrastive margin according to sample difficulty to enhance the distinction of challenging sample pairs. Experiments on three public datasets demonstrate that our method effectively boosts VLMs’ performance on complex CR tasks. The source code is available at https://github.com/nynu-BDAI/AHNPL.

arxiv情報

著者 Xin Huang,Ruibin Li,Tong Jia,Wei Zheng,Ya Wang
発行日 2025-05-21 14:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models はコメントを受け付けていません

UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset

要約

最近の大規模モデリングのブレークスルーにより、セグメントAnything Model(SAM)は、さまざまな視覚アプリケーションで重要な可能性を示しています。
ただし、水中ドメインの専門知識がないため、SAMとそのバリエーションは、エンドツーエンドの水中インスタンスセグメンテーションタスクのパフォーマンスの制限に直面していますが、より高い計算要件は水中シナリオでのアプリケーションをさらに妨げます。
この課題に対処するために、10のカテゴリにピクセルレベルの注釈を備えた10,048画像を含む大規模な水中インスタンスセグメンテーションデータセットを提案します。
次に、水中インスタンスの自動で正確なセグメンテーション用に設計された効率的なモデルであるUWSAMを紹介します。
UWSAMは、効果的な視覚表現学習のために、マスクGATベースの水中知識蒸留(MG-UKD)メソッドを介して、SAM Vit-Huge画像エンコーダーからの知識をより小さなVITスモール画像エンコーダーに効率的に蒸留します。
さらに、UWSAM用のエンドツーエンドの水中プロンプトジェネレーター(EUPG)を設計します。これは、前景ポイントまたはボックスをプロンプトとして明示的に提供する代わりに、水中プロンプトを自動的に生成するため、効率的なセグメンテーションのために水中インスタンスを正確に見つけることができます。
包括的な実験結果は、私たちのモデルが効果的であり、複数の水中インスタンスデータセットで最先端の方法よりも大幅なパフォーマンスの改善を達成することを示しています。
データセットとコードは、https://github.com/liamlian0727/uiis10kで入手できます。

要約(オリジナル)

With recent breakthroughs in large-scale modeling, the Segment Anything Model (SAM) has demonstrated significant potential in a variety of visual applications. However, due to the lack of underwater domain expertise, SAM and its variants face performance limitations in end-to-end underwater instance segmentation tasks, while their higher computational requirements further hinder their application in underwater scenarios. To address this challenge, we propose a large-scale underwater instance segmentation dataset, UIIS10K, which includes 10,048 images with pixel-level annotations for 10 categories. Then, we introduce UWSAM, an efficient model designed for automatic and accurate segmentation of underwater instances. UWSAM efficiently distills knowledge from the SAM ViT-Huge image encoder into the smaller ViT-Small image encoder via the Mask GAT-based Underwater Knowledge Distillation (MG-UKD) method for effective visual representation learning. Furthermore, we design an End-to-end Underwater Prompt Generator (EUPG) for UWSAM, which automatically generates underwater prompts instead of explicitly providing foreground points or boxes as prompts, thus enabling the network to locate underwater instances accurately for efficient segmentation. Comprehensive experimental results show that our model is effective, achieving significant performance improvements over state-of-the-art methods on multiple underwater instance datasets. Datasets and codes are available at https://github.com/LiamLian0727/UIIS10K.

arxiv情報

著者 Hua Li,Shijie Lian,Zhiyuan Li,Runmin Cong,Sam Kwong
発行日 2025-05-21 14:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset はコメントを受け付けていません

Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation

要約

チャートやドキュメントなどの豊富なテキストを持つ画像に関する推論は、ビジョン言語モデル(VLM)の重要なアプリケーションです。
ただし、VLMは、多様なテキストが豊富なビジョン言語データが不足しているため、しばしばこれらのドメインで苦労しています。
この課題に対処するために、CoSynを提示します。これは、テキストのみの大手言語モデル(LLM)のコーディング機能を活用して、合成テキストが豊富なマルチモーダルデータを自動的に作成するフレームワークです。
ターゲットドメイン(「栄養事実ラベル」など)を記述する入力テキストが与えられた場合、COSYNはLLMに合成画像をレンダリングするためのコード(Python、HTML、ラテックスなど)を生成するように促します。
基礎となるコードが合成画像のテキスト表現として、CoSynはテキストのみのLLMに依存して、高品質の命令調整データを生成できます。
Cosynを使用して、400kの画像と2.7mの列の視力命令調整データを含むデータセットを構築しました。
7つのベンチマークでの包括的な実験は、合成データでトレーニングされたモデルが、Llama 3.2を含む競合するオープンソースモデル間で最先端のパフォーマンスを達成し、GPT-4VやGemini 1.5フラッシュなどの専有モデルを超えることを示しています。
さらに、COSYNは合成ポインティングデータを生成し、VLMが入力画像内で情報を接地できるようにし、実際の環境で作用できるマルチモーダルエージェントを開発する可能性を示しています。

要約(オリジナル)

Reasoning about images with rich text, such as charts and documents, is a critical application of vision-language models (VLMs). However, VLMs often struggle in these domains due to the scarcity of diverse text-rich vision-language data. To address this challenge, we present CoSyn, a framework that leverages the coding capabilities of text-only large language models (LLMs) to automatically create synthetic text-rich multimodal data. Given input text describing a target domain (e.g., ‘nutrition fact labels’), CoSyn prompts an LLM to generate code (Python, HTML, LaTeX, etc.) for rendering synthetic images. With the underlying code as textual representations of the synthetic images, CoSyn can generate high-quality instruction-tuning data, again relying on a text-only LLM. Using CoSyn, we constructed a dataset comprising 400K images and 2.7M rows of vision-language instruction-tuning data. Comprehensive experiments on seven benchmarks demonstrate that models trained on our synthetic data achieve state-of-the-art performance among competitive open-source models, including Llama 3.2, and surpass proprietary models such as GPT-4V and Gemini 1.5 Flash. Furthermore, CoSyn can produce synthetic pointing data, enabling VLMs to ground information within input images, showcasing its potential for developing multimodal agents capable of acting in real-world environments.

arxiv情報

著者 Yue Yang,Ajay Patel,Matt Deitke,Tanmay Gupta,Luca Weihs,Andrew Head,Mark Yatskar,Chris Callison-Burch,Ranjay Krishna,Aniruddha Kembhavi,Christopher Clark
発行日 2025-05-21 14:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation はコメントを受け付けていません

Diversity-Driven View Subset Selection for Indoor Novel View Synthesis

要約

屋内シーンの新しいビュー統合は、環境の単眼ビデオシーケンスをキャプチャすることで実現できます。
ただし、入力ビデオデータの人工的な動きによって引き起こされる冗長な情報は、シーンモデリングの効率を低下させます。
これに対処するために、ビューサブセット選択のための組み合わせ最適化タスクとして問題を定式化します。
この作業では、包括的な多様性ベースの測定を適切に設計されたユーティリティ関数と統合する新しいサブセット選択フレームワークを提案します。
これらのユーティリティ関数の理論的分析を提供し、広範な実験を通じてそれらの有効性を検証します。
さらに、複雑な人間の行動をシミュレートする複雑で拡張された軌跡を特徴とする屋内小説ビューの合成のために設計された新しいデータセットであるIndoorTrajを紹介します。
IndoorTrajの実験は、私たちのフレームワークがデータの5〜20%しか使用しない一方でベースライン戦略を一貫して上回っており、その驚くべき効率と有効性を強調していることを示しています。
このコードは、https://github.com/zehao-wang/indoortrajで入手できます

要約(オリジナル)

Novel view synthesis of indoor scenes can be achieved by capturing a monocular video sequence of the environment. However, redundant information caused by artificial movements in the input video data reduces the efficiency of scene modeling. To address this, we formulate the problem as a combinatorial optimization task for view subset selection. In this work, we propose a novel subset selection framework that integrates a comprehensive diversity-based measurement with well-designed utility functions. We provide a theoretical analysis of these utility functions and validate their effectiveness through extensive experiments. Furthermore, we introduce IndoorTraj, a novel dataset designed for indoor novel view synthesis, featuring complex and extended trajectories that simulate intricate human behaviors. Experiments on IndoorTraj show that our framework consistently outperforms baseline strategies while using only 5-20% of the data, highlighting its remarkable efficiency and effectiveness. The code is available at: https://github.com/zehao-wang/IndoorTraj

arxiv情報

著者 Zehao Wang,Han Zhou,Matthew B. Blaschko,Tinne Tuytelaars,Minye Wu
発行日 2025-05-21 14:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Diversity-Driven View Subset Selection for Indoor Novel View Synthesis はコメントを受け付けていません

VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation

要約

大規模な前処理されたビジョンバックボーンは、セマンティックセグメンテーションの視覚的なプロンプトなどのトレーニングなしのアプローチなど、さまざまな下流タスクを可能にする強力な機能抽出器を提供することにより、コンピュータービジョンを変換しました。
一般的なシナリオでの成功にもかかわらず、これらのモデルは、視覚的特徴がトレーニング分布とは大きく異なる専門的な技術ドメインに適用すると不足していることがよくあります。
このギャップを埋めるために、VP Labを導入します。VPLabは、堅牢なセグメンテーションモデル開発の視覚的なプロンプトを強化する包括的な反復フレームワークです。
VP Labのコアには、パラメーター効率の良い方法で視覚的なプロンプトパイプラインを特定のドメインに適応させるために特別に設計されたパラメーター効率の高い微調整技術の新しいアンサンブルであるE-Peftがあります。
私たちのアプローチは、セグメントのあらゆるモデル(SAM)の最先端のパラメーター効率の高い微調整を上回るだけでなく、インタラクティブでほぼリアルタイムループを促進し、ユーザーがフレームワーク内で実験する際に結果を徐々に改善できるようにします。
e-peftを視覚的なプロンプトと統合することにより、5つの検証済みの画像のみを使用して、さまざまな技術データセットでセマンティックセグメンテーションMIOUパフォーマンスの顕著な50 \%の増加を示し、新しい挑戦的なドメインにおける高速で効率的でインタラクティブなモデルの展開のための新しいパラダイムを確立します。
この作品は、デモンストレーションの形で行われます。

要約(オリジナル)

Large-scale pretrained vision backbones have transformed computer vision by providing powerful feature extractors that enable various downstream tasks, including training-free approaches like visual prompting for semantic segmentation. Despite their success in generic scenarios, these models often fall short when applied to specialized technical domains where the visual features differ significantly from their training distribution. To bridge this gap, we introduce VP Lab, a comprehensive iterative framework that enhances visual prompting for robust segmentation model development. At the core of VP Lab lies E-PEFT, a novel ensemble of parameter-efficient fine-tuning techniques specifically designed to adapt our visual prompting pipeline to specific domains in a manner that is both parameter- and data-efficient. Our approach not only surpasses the state-of-the-art in parameter-efficient fine-tuning for the Segment Anything Model (SAM), but also facilitates an interactive, near-real-time loop, allowing users to observe progressively improving results as they experiment within the framework. By integrating E-PEFT with visual prompting, we demonstrate a remarkable 50\% increase in semantic segmentation mIoU performance across various technical datasets using only 5 validated images, establishing a new paradigm for fast, efficient, and interactive model deployment in new, challenging domains. This work comes in the form of a demonstration.

arxiv情報

著者 Niccolo Avogaro,Thomas Frick,Yagmur G. Cinar,Daniel Caraballo,Cezary Skura,Filip M. Janicki,Piotr Kluska,Brown Ebouky,Nicola Farronato,Florian Scheidegger,Cristiano Malossi,Konrad Schindler,Andrea Bartezzaghi,Roy Assaf,Mattia Rigotti
発行日 2025-05-21 14:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VP Lab: a PEFT-Enabled Visual Prompting Laboratory for Semantic Segmentation はコメントを受け付けていません

Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off

要約

基礎モデルは、さまざまなタスクで印象的なパフォーマンスを示していますが、敵対的なインプットに対して脆弱なままです。
現在の研究では、モデルの堅牢性を高めるためのさまざまなアプローチを調査し、拡散除去されたスムージングが特に有望な手法として出現しています。
この方法では、モデル推論の前に、前処理された拡散モデルを使用して入力を前処理します。
しかし、その有効性は、分類を超えてほとんど未踏のままです。
3つの異なる敵対的攻撃アルゴリズムの下で、4つの異なる下流タスクを持つ3つのデータセットを分析することにより、このギャップに対処することを目指しています。
私たちの調査結果は、基礎モデルが従来の変換に対する回復力を維持している一方で、歪みのない歪みのない画像をきれいにするために高ノイズ拡散除去を適用すると、パフォーマンスは57%高くなります。
低ノイズ拡散設定はパフォーマンスを維持しますが、すべての攻撃タイプで適切な保護を提供できません。
さらに、拡散プロセス自体を特に標的とする新しい攻撃戦略を導入し、低雑音体制の防御を回避できます。
我々の結果は、敵対的な堅牢性とパフォーマンスのトレードオフが依然として対処するべき挑戦であることを示唆しています。

要約(オリジナル)

While foundation models demonstrate impressive performance across various tasks, they remain vulnerable to adversarial inputs. Current research explores various approaches to enhance model robustness, with Diffusion Denoised Smoothing emerging as a particularly promising technique. This method employs a pretrained diffusion model to preprocess inputs before model inference. Yet, its effectiveness remains largely unexplored beyond classification. We aim to address this gap by analyzing three datasets with four distinct downstream tasks under three different adversarial attack algorithms. Our findings reveal that while foundation models maintain resilience against conventional transformations, applying high-noise diffusion denoising to clean images without any distortions significantly degrades performance by as high as 57%. Low-noise diffusion settings preserve performance but fail to provide adequate protection across all attack types. Moreover, we introduce a novel attack strategy specifically targeting the diffusion process itself, capable of circumventing defenses in the low-noise regime. Our results suggest that the trade-off between adversarial robustness and performance remains a challenge to be addressed.

arxiv情報

著者 Yury Belousov,Brian Pulfer,Vitaliy Kinakh,Slava Voloshynovskiy
発行日 2025-05-21 14:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off はコメントを受け付けていません

A Methodology to Evaluate Strategies Predicting Rankings on Unseen Domains

要約

多くの場合、複数のエンティティ(メソッド、アルゴリズム、手順、ソリューションなど)を一般的なタスクのために開発し、遭遇するシナリオの分布が異なるさまざまなドメインに適用できます。
たとえば、コンピュータービジョンでは、画像分析方法に提供される入力データは、使用するセンサーのタイプ、その場所、シーンの内容に依存します。
ただし、重要な難しさは残っています。新しいドメインの評価に基づいて、新しいドメインでの評価に基づいて、新しいドメインでどのエンティティが最適かを予測できます。
このペーパーでは、さまざまなアプリケーション固有の好みについて、この質問に対処するためのオリジナルの方法論を紹介します。
53のドメイン(ビデオ)での40のエンティティ(監視されていないバックグラウンド減算方法)のランキングを予測するための30の戦略でその使用を説明します。

要約(オリジナル)

Frequently, multiple entities (methods, algorithms, procedures, solutions, etc.) can be developed for a common task and applied across various domains that differ in the distribution of scenarios encountered. For example, in computer vision, the input data provided to image analysis methods depend on the type of sensor used, its location, and the scene content. However, a crucial difficulty remains: can we predict which entities will perform best in a new domain based on assessments on known domains, without having to carry out new and costly evaluations? This paper presents an original methodology to address this question, in a leave-one-domain-out fashion, for various application-specific preferences. We illustrate its use with 30 strategies to predict the rankings of 40 entities (unsupervised background subtraction methods) on 53 domains (videos).

arxiv情報

著者 Sébastien Piérard,Adrien Deliège,Anaïs Halin,Marc Van Droogenbroeck
発行日 2025-05-21 14:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.PF | A Methodology to Evaluate Strategies Predicting Rankings on Unseen Domains はコメントを受け付けていません

Aggregation Schemes for Single-Vector WSI Representation Learning in Digital Pathology

要約

計算病理学で全体のスライド画像(WSI)を効率的に統合するための重要なステップは、単一の高品質の特徴ベクトル、つまり1つの埋め込みを各WSIに割り当てることです。
多くの事前に訓練された深いニューラルネットワークの存在と基礎モデルの出現に伴い、サブイメージ(つまり、タイルまたはパッチ)の埋め込みを抽出することは簡単です。
ただし、WSIの場合、高解像度とギガピクセルの性質を考慮して、単一の画像として既存のGPUに入力することは実行不可能です。
その結果、WSIは通常、多くのパッチに分割されます。
各パッチを事前に訓練したモデルに送り、各WSIはパッチのセットで表すことができます。したがって、埋め込みセットです。
したがって、このようなセットアップでは、WSI表現学習は、各WSIのパッチ埋め込みセットにアクセスできる場所で表現学習を設定するために減少します。
各WSIのパッチ埋め込みのセットから単一の埋め込みを取得するために、文献には複数のセットベースの学習スキームが提案されています。
このホワイトペーパーでは、単純な平均または最大プーリング操作、ディープセット、メモリネットワーク、焦点の注意、ガウス混合モデル(GMM)フィッシャーベクター、および青白い胸からの乳房、腎臓、腎臓、腎臓、腎臓、腎臓、腎臓、腎臓、幼児用kmney、およびkmney、およびkmney、kmney、およびkmney、kmney、およびkmney、ksga、ksga、ksga、ksgainのkringは腎臓の腎臓にはkmnowがタッカーでは腎臓に迫り来るとゴムではこれには四半期漁師の注目を集めたものである4つのメロドウ板および四面体漁業操作に含む、焦点材料学習手法(主にセット」
さらに、WSI検索に使用される非凝集アプローチであるパッチ埋め込みの最小距離の中央値に対して、これらのメソッドの検索パフォーマンスをベンチマークします。

要約(オリジナル)

A crucial step to efficiently integrate Whole Slide Images (WSIs) in computational pathology is assigning a single high-quality feature vector, i.e., one embedding, to each WSI. With the existence of many pre-trained deep neural networks and the emergence of foundation models, extracting embeddings for sub-images (i.e., tiles or patches) is straightforward. However, for WSIs, given their high resolution and gigapixel nature, inputting them into existing GPUs as a single image is not feasible. As a result, WSIs are usually split into many patches. Feeding each patch to a pre-trained model, each WSI can then be represented by a set of patches, hence, a set of embeddings. Hence, in such a setup, WSI representation learning reduces to set representation learning where for each WSI we have access to a set of patch embeddings. To obtain a single embedding from a set of patch embeddings for each WSI, multiple set-based learning schemes have been proposed in the literature. In this paper, we evaluate the WSI search performance of multiple recently developed aggregation techniques (mainly set representation learning techniques) including simple average or max pooling operations, Deep Sets, Memory networks, Focal attention, Gaussian Mixture Model (GMM) Fisher Vector, and deep sparse and binary Fisher Vector on four different primary sites including bladder, breast, kidney, and Colon from TCGA. Further, we benchmark the search performance of these methods against the median of minimum distances of patch embeddings, a non-aggregating approach used for WSI retrieval.

arxiv情報

著者 Sobhan Hemati,Ghazal Alabtah,Saghir Alfasly,H. R. Tizhoosh
発行日 2025-05-21 15:05:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR, eess.IV, q-bio.QM | Aggregation Schemes for Single-Vector WSI Representation Learning in Digital Pathology はコメントを受け付けていません

LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)は、視覚的および言語情報の統合に大きな進歩を遂げていますが、複雑で現実世界のシナリオについて推論する能力は限られたままです。
既存のベンチマークは通常、異なるタスクサンプルが同じデータ分布から得られることを保証することなく、タスク指向の方法で構築されます。
この制限を解除するために、レンズを貢献します。レンズは、3.4Kの現代的な画像と60k+の人間が執筆した質問を含むマルチレベルのベンチマークであり、1日の8つのタスクと12のシナリオをカバーし、3つの進歩的なタスク層、つまり知覚、理解、推論を形成します。
1つの機能は、各画像にすべてのタスクに豊富な注釈が装備されていることです。
したがって、このデータセットは本質的に、MLLMを評価して、基本的な認識から構成の推論まで、画像不変のプロンプトを処理することをサポートしています。
さらに、私たちの画像は、53%が2025年1月より遅く公開されたソーシャルメディアからマンリー収集されています。QWEN2.5-VL-72B、INTERNVL3-78B、GPT-4O、および2つの推論モデルQVQ-72B-PREVIEW、KIMIVLなどの15以上のフロンティアMLLMを評価します。
これらのモデルは2024年12月より遅くリリースされており、推論タスクで60%を超える精度を達成するものはありません。
プロジェクトページ:https://github.com/lens4mllms/lens。
ICCV 2025ワークショップページ:https://lens4mllms.github.io/mars2-workshop-iccv2025/

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved significant advances in integrating visual and linguistic information, yet their ability to reason about complex and real-world scenarios remains limited. The existing benchmarks are usually constructed in the task-oriented manner without guarantee that different task samples come from the same data distribution, thus they often fall short in evaluating the synergistic effects of lower-level perceptual capabilities on higher-order reasoning. To lift this limitation, we contribute Lens, a multi-level benchmark with 3.4K contemporary images and 60K+ human-authored questions covering eight tasks and 12 daily scenarios, forming three progressive task tiers, i.e., perception, understanding, and reasoning. One feature is that each image is equipped with rich annotations for all tasks. Thus, this dataset intrinsically supports to evaluate MLLMs to handle image-invariable prompts, from basic perception to compositional reasoning. In addition, our images are manully collected from the social media, in which 53% were published later than Jan. 2025. We evaluate 15+ frontier MLLMs such as Qwen2.5-VL-72B, InternVL3-78B, GPT-4o and two reasoning models QVQ-72B-preview and Kimi-VL. These models are released later than Dec. 2024, and none of them achieve an accuracy greater than 60% in the reasoning tasks. Project page: https://github.com/Lens4MLLMs/lens. ICCV 2025 workshop page: https://lens4mllms.github.io/mars2-workshop-iccv2025/

arxiv情報

著者 Ruilin Yao,Bo Zhang,Jirui Huang,Xinwei Long,Yifang Zhang,Tianyu Zou,Yufei Wu,Shichao Su,Yifan Xu,Wenxi Zeng,Zhaoyu Yang,Guoyou Li,Shilan Zhang,Zichan Li,Yaxiong Chen,Shengwu Xiong,Peng Xu,Jiajun Zhang,Bowen Zhou,David Clifton,Luc Van Gool
発行日 2025-05-21 15:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models はコメントを受け付けていません