iVISPAR — An Interactive Visual-Spatial Reasoning Benchmark for VLMs

要約

Vision-Language Models (VLMs) are known to struggle with spatial reasoning and visual alignment.
これらの制限を克服するために、エージェントとして機能するVLMの空間推論能力を評価するために設計されたインタラクティブなマルチモーダルベンチマークであるIvisparを紹介します。
Ivisparは、スライドタイルパズルのバリアントに基づいています。論理的計画、空間認識、およびマルチステップの推論を要求する古典的な問題です。
The benchmark supports visual 2D, 3D, and text-based input modalities, enabling comprehensive assessments of VLMs’ planning and reasoning skills.
We evaluate a broad suite of state-of-the-art open-source and closed-source VLMs, comparing their performance while also providing optimal path solutions and a human baseline to assess the task’s complexity and feasibility for humans.
Results indicate that while some VLMs perform well on simple spatial tasks, they encounter difficulties with more complex configurations and problem properties.
Notably, while VLMs generally perform better in 2D vision compared to 3D or text-based representations, they consistently fall short of human performance, illustrating the persistent challenge of visual alignment.
This highlights critical gaps in current VLM capabilities, highlighting their limitations in achieving human-level cognition.

要約(オリジナル)

Vision-Language Models (VLMs) are known to struggle with spatial reasoning and visual alignment. To help overcome these limitations, we introduce iVISPAR, an interactive multi-modal benchmark designed to evaluate the spatial reasoning capabilities of VLMs acting as agents. iVISPAR is based on a variant of the sliding tile puzzle-a classic problem that demands logical planning, spatial awareness, and multi-step reasoning. The benchmark supports visual 2D, 3D, and text-based input modalities, enabling comprehensive assessments of VLMs’ planning and reasoning skills. We evaluate a broad suite of state-of-the-art open-source and closed-source VLMs, comparing their performance while also providing optimal path solutions and a human baseline to assess the task’s complexity and feasibility for humans. Results indicate that while some VLMs perform well on simple spatial tasks, they encounter difficulties with more complex configurations and problem properties. Notably, while VLMs generally perform better in 2D vision compared to 3D or text-based representations, they consistently fall short of human performance, illustrating the persistent challenge of visual alignment. This highlights critical gaps in current VLM capabilities, highlighting their limitations in achieving human-level cognition.

arxiv情報

著者 Julius Mayer,Mohamad Ballout,Serwan Jassim,Farbod Nosrat Nezami,Elia Bruni
発行日 2025-02-05 14:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | iVISPAR — An Interactive Visual-Spatial Reasoning Benchmark for VLMs はコメントを受け付けていません

PSC: Posterior Sampling-Based Compression

要約

拡散モデルは、画像生成の景観を変換し、イメージ圧縮の顕著な可能性を示しています。
最近の拡散ベースの圧縮方法のほとんどは、トレーニングが必要であり、特定のビットレートに合わせて調整されています。
この作業では、事前に訓練された拡散モデルを唯一のニューラルネットワークコンポーネントとして活用するゼロショット圧縮法である後期サンプリングベースの圧縮(PSC)を提案します。
私たちのアプローチは、いくつかの事前に選択された変換ドメインで画像をエンコードする変換コーディングメソッドに触発されています。
ただし、PSCは画像に適応する変換を構築します。
これは、変換マトリックスの行を徐々に構築するために、ゼロショット拡散ベースの後部サンプラーを使用することによって行われます。
これまでに収集された量子化された測定値を考慮して、画像に関する不確実性を減らすために、行の新しい塊が選択されています。
重要なことに、同じ適応スキームをデコーダーで複製できるため、変換自体をエンコードする必要性を回避できます。
基本的な量子化とエントロピーコーディングがあっても、PSCのパフォーマンスは、速度、歪み、および知覚品質の点で確立されたトレーニングベースの方法に匹敵することを実証します。
これは、より大きな柔軟性を提供しながら、目的の速度または歪みを推論時に選択することができます。

要約(オリジナル)

Diffusion models have transformed the landscape of image generation and now show remarkable potential for image compression. Most of the recent diffusion-based compression methods require training and are tailored for a specific bit-rate. In this work, we propose Posterior Sampling-based Compression (PSC) – a zero-shot compression method that leverages a pre-trained diffusion model as its sole neural network component, thus enabling the use of diverse, publicly available models without additional training. Our approach is inspired by transform coding methods, which encode the image in some pre-chosen transform domain. However, PSC constructs a transform that is adaptive to the image. This is done by employing a zero-shot diffusion-based posterior sampler so as to progressively construct the rows of the transform matrix. Each new chunk of rows is chosen to reduce the uncertainty about the image given the quantized measurements collected thus far. Importantly, the same adaptive scheme can be replicated at the decoder, thus avoiding the need to encode the transform itself. We demonstrate that even with basic quantization and entropy coding, PSC’s performance is comparable to established training-based methods in terms of rate, distortion, and perceptual quality. This is while providing greater flexibility, allowing to choose at inference time any desired rate or distortion.

arxiv情報

著者 Noam Elata,Tomer Michaeli,Michael Elad
発行日 2025-02-05 14:33:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | PSC: Posterior Sampling-Based Compression はコメントを受け付けていません

Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion

要約

コンピュータービジョンのタスクでは、機能は多様な表現、ドメイン(屋内や屋外など)、およびモダリティ(テキスト、画像、ビデオなど)からしばしば提供されます。
特にビジョン言語モデルのような強力な事前訓練モデルが利用できるように、これらの機能を効果的に融合させることは、堅牢なパフォーマンスに不可欠です。
ただし、連結、要素ごとの操作、非線形技術などの一般的な融合方法は、構造的関係、深い特徴の相互作用をキャプチャできず、ドメインやモダリティ全体の機能の非効率性または不整合に苦しむことがよくあります。
このホワイトペーパーでは、高次元の特徴空間から、さまざまなレベル、たとえばクリップ、フレーム、パッチ、トークンなどで特徴関係をエンコードする関係グラフを構築することにより、より深いレベルでの関係グラフを構築することにより、より深い相互作用をキャプチャすることにより、より深いレベルでの関係グラフを構築することにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用をキャプチャすることにより、より深い相互作用を挙げます。
グラフの電力拡張を使用し、学習可能なグラフ融合演算子を導入して、これらのグラフパワーを組み合わせて、より効果的な融合します。
私たちのアプローチは関係中心であり、均一な空間で動作し、数学的に原則的であり、多重線形多項式を介した要素ごとの関係スコア集計に似ています。
ビデオの異常検出に対するグラフベースの融合法の有効性を実証し、マルチレプセント、マルチモーダル、およびマルチドメイン機能の融合タスク全体で強力なパフォーマンスを示しています。

要約(オリジナル)

In computer vision tasks, features often come from diverse representations, domains (e.g., indoor and outdoor), and modalities (e.g., text, images, and videos). Effectively fusing these features is essential for robust performance, especially with the availability of powerful pre-trained models like vision-language models. However, common fusion methods, such as concatenation, element-wise operations, and non-linear techniques, often fail to capture structural relationships, deep feature interactions, and suffer from inefficiency or misalignment of features across domains or modalities. In this paper, we shift from high-dimensional feature space to a lower-dimensional, interpretable graph space by constructing relationship graphs that encode feature relationships at different levels, e.g., clip, frame, patch, token, etc. To capture deeper interactions, we use graph power expansions and introduce a learnable graph fusion operator to combine these graph powers for more effective fusion. Our approach is relationship-centric, operates in a homogeneous space, and is mathematically principled, resembling element-wise relationship score aggregation via multilinear polynomials. We demonstrate the effectiveness of our graph-based fusion method on video anomaly detection, showing strong performance across multi-representational, multi-modal, and multi-domain feature fusion tasks.

arxiv情報

著者 Dexuan Ding,Lei Wang,Liyun Zhu,Tom Gedeon,Piotr Koniusz
発行日 2025-02-05 14:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion はコメントを受け付けていません

GARAD-SLAM: 3D GAussian splatting for Real-time Anti Dynamic SLAM

要約

3Dガウススプラッティング(3DGS)ベースのSLAMシステムは、リアルタイムの高忠実度レンダリングでの優れたパフォーマンスにより、広範囲にわたる注目を集めています。
ただし、動的なオブジェクトを備えた実際の環境では、既存の3DGSベースのSLAMシステムがマッピングエラーとドリフトの問題を追跡することがよくあります。
これらの問題に対処するために、動的シーンに合わせて調整されたリアルタイム3DGSベースのSLAMシステムであるGarad-Slamを提案します。
追跡に関しては、従来の方法とは異なり、ガウスの動的セグメンテーションを直接実行し、それらをフロントエンドに戻し、ガウスピラミッドネットワークを介して動的なポイントラベルを取得し、正確な動的除去と堅牢な追跡を実現します。
マッピングのために、単純な剪定によって引き起こされる不可逆的な誤った除去を回避するために、ネットワークを通じて更新される動的にラベル付けされたガウス人にレンダリングペナルティを課します。
現実世界のデータセットでの我々の結果は、ベースラインの方法と比較して、私たちの方法が追跡に競争力があり、レンダリングのアーティファクトが少なく、より高品質の再構成を生成することを示しています。

要約(オリジナル)

The 3D Gaussian Splatting (3DGS)-based SLAM system has garnered widespread attention due to its excellent performance in real-time high-fidelity rendering. However, in real-world environments with dynamic objects, existing 3DGS-based SLAM systems often face mapping errors and tracking drift issues. To address these problems, we propose GARAD-SLAM, a real-time 3DGS-based SLAM system tailored for dynamic scenes. In terms of tracking, unlike traditional methods, we directly perform dynamic segmentation on Gaussians and map them back to the front-end to obtain dynamic point labels through a Gaussian pyramid network, achieving precise dynamic removal and robust tracking. For mapping, we impose rendering penalties on dynamically labeled Gaussians, which are updated through the network, to avoid irreversible erroneous removal caused by simple pruning. Our results on real-world datasets demonstrate that our method is competitive in tracking compared to baseline methods, generating fewer artifacts and higher-quality reconstructions in rendering.

arxiv情報

著者 Mingrui Li,Weijian Chen,Na Cheng,Jingyuan Xu,Dong Li,Hongyu Wang
発行日 2025-02-05 14:44:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | GARAD-SLAM: 3D GAussian splatting for Real-time Anti Dynamic SLAM はコメントを受け付けていません

A Unified Framework for Semi-Supervised Image Segmentation and Registration

要約

注釈付きデータと発表されていないデータの両方を活用する半教師の学習は、医療画像セグメンテーションの効率的なアプローチであり、データセット全体の注釈を取得することは時間がかかり、費用がかかります。
従来の半教師の方法は、主に、特徴の抽出と、モデルトレーニングを強化するための未発表のデータからのデータ分布の学習に焦点を当てています。
このホワイトペーパーでは、画像登録モデルを組み込んだ新しいアプローチを紹介して、発表されていないデータの擬似ラベルを生成し、モデルトレーニングを改善するために、より幾何学的に正しい擬似ラベルを生成します。
私たちの方法は2D脳データセットで評価され、注釈付きデータの1 \%のみを使用しても優れたパフォーマンスを示しました。
結果は、私たちのアプローチが、特に注釈シナリオの割合が低いという、従来の半監視セグメンテーション方法(教師と学生のモデルなど)を上回ることを示しています。
Github:https://github.com/ruizhe-l/unisegreg。

要約(オリジナル)

Semi-supervised learning, which leverages both annotated and unannotated data, is an efficient approach for medical image segmentation, where obtaining annotations for the whole dataset is time-consuming and costly. Traditional semi-supervised methods primarily focus on extracting features and learning data distributions from unannotated data to enhance model training. In this paper, we introduce a novel approach incorporating an image registration model to generate pseudo-labels for the unannotated data, producing more geometrically correct pseudo-labels to improve the model training. Our method was evaluated on a 2D brain data set, showing excellent performance even using only 1\% of the annotated data. The results show that our approach outperforms conventional semi-supervised segmentation methods (e.g. teacher-student model), particularly in a low percentage of annotation scenario. GitHub: https://github.com/ruizhe-l/UniSegReg.

arxiv情報

著者 Ruizhe Li,Grazziela Figueredo,Dorothee Auer,Rob Dineen,Paul Morgan,Xin Chen
発行日 2025-02-05 14:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Unified Framework for Semi-Supervised Image Segmentation and Registration はコメントを受け付けていません

Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search

要約

このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2025チャレンジに対するHFUT-LMCチームのソリューションを紹介します。
この課題の主な目的は、歩行者画像の大きなライブラリ内で正常または異常な行動を示す歩行者を正確に特定することです。
従来のビデオ分析タスクとは異なり、TPAは、テキストの説明と視覚データの微妙な関係を理解し​​、解釈することを強調しています。
このタスクの複雑さは、モデルが個人を一致させるだけでなく、大規模な画像データセットのテキストの説明と一致させるだけでなく、同様の説明に直面したときに検索結果を正確に区別します。
これらの課題を克服するために、類似性カバレッジ分析(SCA)戦略を導入して、同様のテキストの説明によって引き起こされる認識の難易度に対処します。
この戦略は、微妙な違いを管理するモデルの能力を効果的に強化し、検索の精度と信頼性の両方を改善します。
提案されたソリューションは、この課題で優れたパフォーマンスを示しました。

要約(オリジナル)

This paper presents the HFUT-LMC team’s solution to the WWW 2025 challenge on Text-based Person Anomaly Search (TPAS). The primary objective of this challenge is to accurately identify pedestrians exhibiting either normal or abnormal behavior within a large library of pedestrian images. Unlike traditional video analysis tasks, TPAS significantly emphasizes understanding and interpreting the subtle relationships between text descriptions and visual data. The complexity of this task lies in the model’s need to not only match individuals to text descriptions in massive image datasets but also accurately differentiate between search results when faced with similar descriptions. To overcome these challenges, we introduce the Similarity Coverage Analysis (SCA) strategy to address the recognition difficulty caused by similar text descriptions. This strategy effectively enhances the model’s capacity to manage subtle differences, thus improving both the accuracy and reliability of the search. Our proposed solution demonstrated excellent performance in this challenge.

arxiv情報

著者 Jiayi He,Shengeng Tang,Ao Liu,Lechao Cheng,Jingjing Wu,Yanyan Wei
発行日 2025-02-05 14:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search はコメントを受け付けていません

A Kolmogorov metric embedding for live cell microscopy signaling patterns

要約

5-d $(x、y、z、チャネル、時間)$ライブセル顕微鏡映画で、細胞シグナル伝達ダイナミクスの時空間パターンをキャプチャするメトリック埋め込みを提示します。
埋め込みは、デジタルオブジェクト間の情報コンテンツの絶対的な尺度であるコルモゴロフの複雑さ理論に基づいて、正規化された情報距離(NID)と呼ばれるメトリック距離を使用します。
NIDは、ロスレス圧縮の統計を使用して、5Dムービーのペア間の理論的に最適なメトリック距離を計算します。
セルシグナル伝達構造関数(SSF)は、各空間的細胞重心で計算するメトリック3-D画像フィルターのクラスを使用して定義されます。
周囲の細胞質、または機能的な出力など
速度。
唯一のパラメーターは、予想されるセル半径($ \ mu m $)です。
SSFは、オプションでセグメンテーションおよび追跡アルゴリズムと組み合わせることができます。
結果として得られるロスレス圧縮パイプラインは、各5D入力ムービーを、メトリック埋め込みスペースの単一ポイントとして表します。
メトリック埋め込みの有用性は、NIDで測定されるように、5Dムービーの対応するペア間で、パターンの違いを最適に近似する埋め込みスペースの任意のポイント間のユークリッド距離から続きます。
これは、入力画像に対応するポイントだけでなく、埋め込みスペース全体に当てはまります。
例は、合成データ、ヒト上皮(MCF10A)細胞の異なる腫瘍性変異の下でのERKおよびAKTシグナル伝達の2D+タイム映画、ERKの光学的操作下での3-D MCF10Aスフェロイド、およびコロニー分化中のERKダイナミクスの場合に示されています。
ヒト誘導多能性幹細胞で。

要約(オリジナル)

We present a metric embedding that captures spatiotemporal patterns of cell signaling dynamics in 5-D $(x,y,z,channel,time)$ live cell microscopy movies. The embedding uses a metric distance called the normalized information distance (NID) based on Kolmogorov complexity theory, an absolute measure of information content between digital objects. The NID uses statistics of lossless compression to compute a theoretically optimal metric distance between pairs of 5-D movies, requiring no a priori knowledge of expected pattern dynamics, and no training data. The cell signaling structure function (SSF) is defined using a class of metric 3-D image filters that compute at each spatiotemporal cell centroid the voxel intensity configuration of the nucleus w.r.t. the surrounding cytoplasm, or a functional output e.g. velocity. The only parameter is the expected cell radii ($\mu m$). The SSF can be optionally combined with segmentation and tracking algorithms. The resulting lossless compression pipeline represents each 5-D input movie as a single point in a metric embedding space. The utility of a metric embedding follows from Euclidean distance between any points in the embedding space approximating optimally the pattern difference, as measured by the NID, between corresponding pairs of 5-D movies. This is true throughout the embedding space, not only at points corresponding to input images. Examples are shown for synthetic data, for 2-D+time movies of ERK and AKT signaling under different oncogenic mutations in human epithelial (MCF10A) cells, for 3-D MCF10A spheroids under optogenetic manipulation of ERK, and for ERK dynamics during colony differentiation in human induced pluripotent stem cells.

arxiv情報

著者 Layton Aho,Mark Winter,Marc DeCarlo,Agne Frismantiene,Yannick Blum,Paolo Armando Gagliardi,Olivier Pertz,Andrew R. Cohen
発行日 2025-02-05 14:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Kolmogorov metric embedding for live cell microscopy signaling patterns はコメントを受け付けていません

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

要約

最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、臨床医のワークロードを効果的に緩和しています。
ただし、異なる疾患間の固有のサンプルの不均衡は、アルゴリズムを過半数カテゴリに偏っており、まれなカテゴリのパフォーマンスが低下します。
既存の作品は、この課題を長期尾のある問題として定式化し、特徴の表現と分類を分離することでそれに取り組むことを試みました。
しかし、不均衡な分布とテールクラスからの限られたサンプルにより、これらの作品は偏った表現学習と不十分な分類器のキャリブレーションを起こしやすくなります。
これらの問題に取り組むために、ロングテールされたデータセットでのバランスの取れた医療画像分類のための新しいロングテール医療診断(LMD)フレームワークを提案します。
初期段階では、エンコーダーがさまざまなデータ増強を通じて固有のセマンティック機能をキャプチャするよう奨励することにより、関係認識表現学習(RRL)スキームを開発します。
その後の段階では、分類器を繰り返し調整するための反復分類器キャリブレーション(ICC)スキームを提案します。
これは、多数のバランスの取れた仮想機能を生成し、期待最大化方法を使用してエンコーダーを微調整することによって達成されます。
提案されているICCは、少数派のカテゴリを補償して、多数派クラスの診断知識を維持しながら、偏りのない分類器の最適化を促進します。
3つの公共の長期尾のある医療データセットでの包括的な実験は、LMDフレームワークが最先端のアプローチを大幅に上回っていることを示しています。
ソースコードは、https://github.com/peterlipan/lmdでアクセスできます。

要約(オリジナル)

Recently computer-aided diagnosis has demonstrated promising performance, effectively alleviating the workload of clinicians. However, the inherent sample imbalance among different diseases leads algorithms biased to the majority categories, leading to poor performance for rare categories. Existing works formulated this challenge as a long-tailed problem and attempted to tackle it by decoupling the feature representation and classification. Yet, due to the imbalanced distribution and limited samples from tail classes, these works are prone to biased representation learning and insufficient classifier calibration. To tackle these problems, we propose a new Long-tailed Medical Diagnosis (LMD) framework for balanced medical image classification on long-tailed datasets. In the initial stage, we develop a Relation-aware Representation Learning (RRL) scheme to boost the representation ability by encouraging the encoder to capture intrinsic semantic features through different data augmentations. In the subsequent stage, we propose an Iterative Classifier Calibration (ICC) scheme to calibrate the classifier iteratively. This is achieved by generating a large number of balanced virtual features and fine-tuning the encoder using an Expectation-Maximization manner. The proposed ICC compensates for minority categories to facilitate unbiased classifier optimization while maintaining the diagnostic knowledge in majority classes. Comprehensive experiments on three public long-tailed medical datasets demonstrate that our LMD framework significantly surpasses state-of-the-art approaches. The source code can be accessed at https://github.com/peterlipan/LMD.

arxiv情報

著者 Li Pan,Yupei Zhang,Qiushi Yang,Tan Li,Zhen Chen
発行日 2025-02-05 14:57:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration はコメントを受け付けていません

Learning Ordinality in Semantic Segmentation

要約

セマンティックセグメンテーションは、各画像ピクセルのセマンティックラベルを予測することで構成されています。
既存の深い学習アプローチは高い精度を達成しますが、多くの場合、クラス間の順序関係を見落とし、重要なドメインの知識を提供できます(たとえば、生徒は虹彩にあり、車線のマークは道路の一部です)。
このペーパーでは、これらのクラス間依存関係を明示的に組み込む空間順序セグメンテーションの新しい方法を紹介します。
各ピクセルを独立した観察としてではなく、構造化された画像空間の一部として扱うことにより、2つの正規化項と、隣接するピクセル間の順序の一貫性を強制するための新しいメトリックを提案します。
構造的順序セグメンテーションのために、2つの損失正規化条件と1つのメトリックが提案されており、非視線隣接クラスの予測を罰します。
5つの生物医学データセットと自律運転データセットの複数の構成は、提案された方法の有効性を示しています。
私たちのアプローチは、序数のメトリックの改善を達成し、一般化を強化し、サイコロ係数が最大15.7%相対的に増加します。
重要なことに、これらの利点は、追加の推論時間費用なしでもたらされます。
この作業は、セマンティックセグメンテーションにおける空間順序関係の重要性を強調し、構造化された画像表現のさらなる調査の基盤を提供します。

要約(オリジナル)

Semantic segmentation consists of predicting a semantic label for each image pixel. While existing deep learning approaches achieve high accuracy, they often overlook the ordinal relationships between classes, which can provide critical domain knowledge (e.g., the pupil lies within the iris, and lane markings are part of the road). This paper introduces novel methods for spatial ordinal segmentation that explicitly incorporate these inter-class dependencies. By treating each pixel as part of a structured image space rather than as an independent observation, we propose two regularization terms and a new metric to enforce ordinal consistency between neighboring pixels. Two loss regularization terms and one metric are proposed for structural ordinal segmentation, which penalizes predictions of non-ordinal adjacent classes. Five biomedical datasets and multiple configurations of autonomous driving datasets demonstrate the efficacy of the proposed methods. Our approach achieves improvements in ordinal metrics and enhances generalization, with up to a 15.7% relative increase in the Dice coefficient. Importantly, these benefits come without additional inference time costs. This work highlights the significance of spatial ordinal relationships in semantic segmentation and provides a foundation for further exploration in structured image representations.

arxiv情報

著者 Ricardo P. M. Cruz,Rafael Cristino,Jaime S. Cardoso
発行日 2025-02-05 15:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Learning Ordinality in Semantic Segmentation はコメントを受け付けていません

ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models

要約

構造化されていない環境で動作するサービスロボットは、機能を強化するために不明なオブジェクトを効果的に認識し、セグメント化する必要があります。
従来の監視されている学習ベースのセグメンテーション手法には、現実世界のシナリオで遭遇するオブジェクトの多様性にとっては非現実的な注釈付きデータセットが必要です。
Unseen Object Instanceセグメンテーション(UOIS)メソッドは、合成データのトレーニングモデルで新しいオブジェクトに一般化することにより、これに対処することを目的としていますが、シミュレーション間のギャップに苦しむことがよくあります。
このホワイトペーパーでは、セグメントAnything Model(SAM)の強力なゼロショット機能を活用することにより、UOIを解くための新しいアプローチ(ZisVFM)を提案し、自己補助ビジョントランス(VIT)からの明示的な視覚表現を提案しています。
提案されたフレームワークは、3つの段階で動作します。(1)SAMを使用した色付き深度画像からオブジェクトに依存しないマスク提案を生成し、(2)非オブジェクトマスクをフィルタリングするための自己補助VITの注意ベースの機能を使用してこれらの提案を改良する、(3)
K-Medoidsクラスタリングを適用して、SAMを正確なオブジェクトセグメンテーションに導くポイントプロンプトを生成します。
2つのベンチマークデータセットと自己収集データセットでの実験的検証は、キャビネット、引き出し、ハンドヘルドオブジェクトなどの階層設定など、複雑な環境でZISVFMの優れた性能を示しています。
ソースコードは、https://github.com/yinmlmaoliang/zisvfmで入手できます。

要約(オリジナル)

Service robots operating in unstructured environments must effectively recognize and segment unknown objects to enhance their functionality. Traditional supervised learningbased segmentation techniques require extensive annotated datasets, which are impractical for the diversity of objects encountered in real-world scenarios. Unseen Object Instance Segmentation (UOIS) methods aim to address this by training models on synthetic data to generalize to novel objects, but they often suffer from the simulation-to-reality gap. This paper proposes a novel approach (ZISVFM) for solving UOIS by leveraging the powerful zero-shot capability of the segment anything model (SAM) and explicit visual representations from a selfsupervised vision transformer (ViT). The proposed framework operates in three stages: (1) generating object-agnostic mask proposals from colorized depth images using SAM, (2) refining these proposals using attention-based features from the selfsupervised ViT to filter non-object masks, and (3) applying K-Medoids clustering to generate point prompts that guide SAM towards precise object segmentation. Experimental validation on two benchmark datasets and a self-collected dataset demonstrates the superior performance of ZISVFM in complex environments, including hierarchical settings such as cabinets, drawers, and handheld objects. Our source code is available at https://github.com/Yinmlmaoliang/zisvfm.

arxiv情報

著者 Ying Zhang,Maoliang Yin,Wenfu Bi,Haibao Yan,Shaohan Bian,Cui-Hua Zhang,Changchun Hua
発行日 2025-02-05 15:22:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models はコメントを受け付けていません