EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding

要約

教師なしドメイン適応は、セマンティック セグメンテーション モデルをデータ分散全体に転送するための効率的なアプローチです。
一方、大規模なビジョン言語モデルに基づく最近のオープン語彙セマンティックシーン理解は、多様な概念やカテゴリを学習できるため、オープンセット環境で効果的です。
しかしながら、これらの従来の方法は、ビューを横断する幾何学的モデリングが欠如しているため、異なるカメラビューにわたって一般化することができない。
現時点では、クロスビュー学習を分析する研究は限られています。
この問題に対処するために、意味論的シーン理解におけるビュー間の幾何学的構造変化をモデル化する新しい教師なしクロスビュー適応学習アプローチを導入します。
まず、不対データに対する新しいクロスビュー幾何制約を導入して、カメラ全体の画像とセグメンテーション マスクの構造変化をモデル化します。
2 番目に、カメラ ビュー全体の幾何学的構造の変化を効率的に測定するための、新しい測地線フロー ベースの相関メトリックを提示します。
第三に、クロスビュー適応学習におけるオープン語彙セグメンテーションネットワークのビュー情報モデリングを強化するための、新しいビュー条件プロンプトメカニズムを導入します。
さまざまなクロスビュー適応ベンチマークの実験では、クロスビュー モデリングにおける私たちのアプローチの有効性が示され、以前の教師なしドメイン適応やオープン語彙セマンティック セグメンテーション手法と比較して最先端 (SOTA) パフォーマンスを達成できることが実証されました。

要約(オリジナル)

Unsupervised Domain Adaptation has been an efficient approach to transferring the semantic segmentation model across data distributions. Meanwhile, the recent Open-vocabulary Semantic Scene understanding based on large-scale vision language models is effective in open-set settings because it can learn diverse concepts and categories. However, these prior methods fail to generalize across different camera views due to the lack of cross-view geometric modeling. At present, there are limited studies analyzing cross-view learning. To address this problem, we introduce a novel Unsupervised Cross-view Adaptation Learning approach to modeling the geometric structural change across views in Semantic Scene Understanding. First, we introduce a novel Cross-view Geometric Constraint on Unpaired Data to model structural changes in images and segmentation masks across cameras. Second, we present a new Geodesic Flow-based Correlation Metric to efficiently measure the geometric structural changes across camera views. Third, we introduce a novel view-condition prompting mechanism to enhance the view-information modeling of the open-vocabulary segmentation network in cross-view adaptation learning. The experiments on different cross-view adaptation benchmarks have shown the effectiveness of our approach in cross-view modeling, demonstrating that we achieve State-of-the-Art (SOTA) performance compared to prior unsupervised domain adaptation and open-vocabulary semantic segmentation methods.

arxiv情報

著者 Thanh-Dat Truong,Utsav Prabhu,Dongyi Wang,Bhiksha Raj,Susan Gauch,Jeyamkondan Subbiah,Khoa Luu
発行日 2024-10-11 14:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EAGLE: Efficient Adaptive Geometry-based Learning in Cross-view Understanding はコメントを受け付けていません

Fast Feedforward 3D Gaussian Splatting Compression

要約

3D ガウス スプラッティング (3DGS) は、斬新なビュー合成のためのリアルタイムかつ高忠実度のレンダリングを進歩させるため、ストレージ要件がその広範な導入に課題をもたらしています。
さまざまな圧縮技術が提案されていますが、従来技術には共通の制限があります。既存の 3DGS では、圧縮を実現するにはシーンごとの最適化が必要であり、圧縮が遅く遅くなります。
この問題に対処するために、1 回のフィードフォワード パスで 3DGS 表現を迅速に圧縮できる最適化不要のモデルである 3D ガウス スプラッティングの高速圧縮 (FCGS) を導入しました。これにより、圧縮時間が数分から数秒に大幅に短縮されます。
圧縮効率を高めるために、サイズと忠実度のバランスをとるためにガウス属性をさまざまなエントロピー制約パスに割り当てるマルチパス エントロピー モジュールを提案します。
また、非構造化ガウス ブロブ間の冗長性を除去するために、ガウス間コンテキスト モデルとガウス内コンテキスト モデルの両方を慎重に設計します。
全体として、FCGS は忠実度を維持しながら 20 倍を超える圧縮率を達成し、ほとんどのシーンごとの SOTA 最適化ベースの手法を上回ります。
私たちのコードは https://github.com/YihangChen-ee/FCGS で入手できます。

要約(オリジナル)

With 3D Gaussian Splatting (3DGS) advancing real-time and high-fidelity rendering for novel view synthesis, storage requirements pose challenges for their widespread adoption. Although various compression techniques have been proposed, previous art suffers from a common limitation: for any existing 3DGS, per-scene optimization is needed to achieve compression, making the compression sluggish and slow. To address this issue, we introduce Fast Compression of 3D Gaussian Splatting (FCGS), an optimization-free model that can compress 3DGS representations rapidly in a single feed-forward pass, which significantly reduces compression time from minutes to seconds. To enhance compression efficiency, we propose a multi-path entropy module that assigns Gaussian attributes to different entropy constraint paths for balance between size and fidelity. We also carefully design both inter- and intra-Gaussian context models to remove redundancies among the unstructured Gaussian blobs. Overall, FCGS achieves a compression ratio of over 20X while maintaining fidelity, surpassing most per-scene SOTA optimization-based methods. Our code is available at: https://github.com/YihangChen-ee/FCGS.

arxiv情報

著者 Yihang Chen,Qianyi Wu,Mengyao Li,Weiyao Lin,Mehrtash Harandi,Jianfei Cai
発行日 2024-10-11 14:51:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Fast Feedforward 3D Gaussian Splatting Compression はコメントを受け付けていません

Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning

要約

マスクされた自動エンコーディングと生成的事前トレーニングは、コンピューター ビジョンと自然言語処理で目覚ましい成功を収めており、さらに最近では点群ドメインにも拡張されています。
それにもかかわらず、既存の点群モデルは、中心点の事前サンプリングによる情報漏洩の問題を抱えており、これによりモデルの簡単なプロキシ タスクが発生します。
これらのアプローチは主に局所的な特徴の再構成に焦点を当てており、点群内のグローバル パターンをキャプチャする能力が制限されています。
この論文では、口実タスクの難易度の低下により、表現表現を学習するモデルの能力が妨げられると主張します。
これらの制限に対処するために、Differentiable Center Sampling Network (DCS-Net) と呼ばれる新しいソリューションを導入します。
グローバル フィーチャの再構成とローカル フィーチャの再構成の両方を重要なプロキシ タスクとして組み込むことで情報漏洩の問題に取り組み、点群内のグローバル パターンとローカル パターンの両方を同時に学習できるようにします。
実験結果は、私たちの方法が既存の点群モデルの表現能力を強化し、情報漏洩の問題に効果的に対処することを示しています。

要約(オリジナル)

Masked autoencoding and generative pretraining have achieved remarkable success in computer vision and natural language processing, and more recently, they have been extended to the point cloud domain. Nevertheless, existing point cloud models suffer from the issue of information leakage due to the pre-sampling of center points, which leads to trivial proxy tasks for the models. These approaches primarily focus on local feature reconstruction, limiting their ability to capture global patterns within point clouds. In this paper, we argue that the reduced difficulty of pretext tasks hampers the model’s capacity to learn expressive representations. To address these limitations, we introduce a novel solution called the Differentiable Center Sampling Network (DCS-Net). It tackles the information leakage problem by incorporating both global feature reconstruction and local feature reconstruction as non-trivial proxy tasks, enabling simultaneous learning of both the global and local patterns within point cloud. Experimental results demonstrate that our method enhances the expressive capacity of existing point cloud models and effectively addresses the issue of information leakage.

arxiv情報

著者 Zhe Li,Ziyang Zhang,Jinglin Zhao,Zheng Wang,Bocheng Ren,Debin Liu,Laurence T. Yang
発行日 2024-10-11 14:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning はコメントを受け付けていません

Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It

要約

ラベル スムージング (LS) は、テスト精度の向上に効果的であり、実装が簡単であるため、ニューラル ネットワークをトレーニングするための一般的な正則化方法です。
ハード ワンホット ラベルは、確率質量を他のクラスに均一に分配することで平滑化され、過剰適合が軽減されます。
これまでの研究では、場合によっては LS が選択的分類 (SC) を低下させる可能性があることが示唆されており、その目的はモデルの不確実性を使用して誤分類を拒否することです。
この研究では、LS が一貫して SC を低下させることを、広範な大規模タスクおよびアーキテクチャにわたって初めて実証します。
次に、既存の知識のギャップに対処し、ロジットレベルの勾配を分析することでこの動作の説明を提供します。LS は、予測が正しい可能性が高い場合は最大ロジットをより正則化し、そうでない場合は最大ロジットを正規化することにより、正しい予測と誤った予測の不確実性ランク順序を低下させます。
間違いそうなとき。
これは、強力な分類器が SC でパフォーマンスを下回るという以前に報告された実験結果を解明します。
次に、LS によって失われた SC パフォーマンスを回復するための事後ロジット正規化の経験的有効性を実証します。
さらに、勾配解析に戻って、なぜそのような正規化が効果的であるのかについても説明します。

要約(オリジナル)

Label smoothing (LS) is a popular regularisation method for training neural networks as it is effective in improving test accuracy and is simple to implement. Hard one-hot labels are smoothed by uniformly distributing probability mass to other classes, reducing overfitting. Prior work has suggested that in some cases LS can degrade selective classification (SC) — where the aim is to reject misclassifications using a model’s uncertainty. In this work, we first demonstrate empirically across an extended range of large-scale tasks and architectures that LS consistently degrades SC. We then address a gap in existing knowledge, providing an explanation for this behaviour by analysing logit-level gradients: LS degrades the uncertainty rank ordering of correct vs incorrect predictions by regularising the max logit more when a prediction is likely to be correct, and less when it is likely to be wrong. This elucidates previously reported experimental results where strong classifiers underperform in SC. We then demonstrate the empirical effectiveness of post-hoc logit normalisation for recovering lost SC performance caused by LS. Furthermore, linking back to our gradient analysis, we again provide an explanation for why such normalisation is effective.

arxiv情報

著者 Guoxuan Xia,Olivier Laurent,Gianni Franchi,Christos-Savvas Bouganis
発行日 2024-10-11 14:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It はコメントを受け付けていません

Multi-modal Fusion based Q-distribution Prediction for Controlled Nuclear Fusion

要約

Q 分布予測は制御核融合における重要な研究の方向性であり、予測の課題を解決するための重要なアプローチとしてディープラーニングが台頭しています。
この論文では、深層学習技術を活用して、Q 分布予測の複雑さに取り組みます。
具体的には、2D ライン画像データを元の 1D データと統合してバイモーダル入力を形成する、コンピューター ビジョンにおけるマルチモーダル フュージョン手法を研究します。
さらに、特徴抽出とバイモーダル情報のインタラクティブな融合のために、Transformer のアテンション メカニズムを採用しています。
広範な実験により、私たちのアプローチの有効性が検証され、Q 分布の予測誤差が大幅に減少しました。

要約(オリジナル)

Q-distribution prediction is a crucial research direction in controlled nuclear fusion, with deep learning emerging as a key approach to solving prediction challenges. In this paper, we leverage deep learning techniques to tackle the complexities of Q-distribution prediction. Specifically, we explore multimodal fusion methods in computer vision, integrating 2D line image data with the original 1D data to form a bimodal input. Additionally, we employ the Transformer’s attention mechanism for feature extraction and the interactive fusion of bimodal information. Extensive experiments validate the effectiveness of our approach, significantly reducing prediction errors in Q-distribution.

arxiv情報

著者 Shiao Wang,Yifeng Wang,Qingchuan Ma,Xiao Wang,Ning Yan,Qingquan Yang,Guosheng Xu,Jin Tang
発行日 2024-10-11 14:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-modal Fusion based Q-distribution Prediction for Controlled Nuclear Fusion はコメントを受け付けていません

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

要約

埋め込みモデルは、意味的類似性、情報検索、クラスタリングなどのさまざまな下流タスクを可能にする上で極めて重要です。
最近、タスク全体で一般化できるユニバーサル テキスト埋め込みモデル (MTEB など) の開発に対する関心が高まっています。
ただし、ユニバーサルマルチモーダル埋め込みモデルの学習の進歩は、その重要性にもかかわらず比較的遅いです。
この研究では、幅広い下流タスクを処理できるユニバーサルな埋め込みを構築する可能性を探ることを目的としています。
私たちの貢献は 2 つあります: (1) MMEB (Massive Multimodal Embedding Benchmark)。これは 4 つのメタタスク (つまり、分類、視覚的な質問応答、マルチモーダル検索、視覚的グラウンディング) と 20 のトレーニング データセットと 16 の評価データセットを含む 36 のデータセットをカバーします。
(2) VLM2Vec (Vision-Language Model -> Vector)。MMEB でのトレーニングを通じて、最先端の視覚言語モデルを埋め込みモデルに変換する対照的なトレーニング フレームワークです。
CLIP や BLIP などの以前のモデルとは異なり、VLM2Vec は画像とテキストの任意の組み合わせを処理して、タスク命令に基づいて固定次元ベクトルを生成できます。
Phi-3.5-V 上で一連の VLM2Vec モデルを構築し、MMEB の評価分割で評価します。
私たちの結果は、VLM2Vec が MMEB の分布内データセットと分布外データセットの両方で、既存のマルチモーダル埋め込みモデルと比較して絶対平均 10% ~ 20% の改善を達成することを示しています。

要約(オリジナル)

Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite their importance. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate them on MMEB’s evaluation split. Our results show that VLM2Vec achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB.

arxiv情報

著者 Ziyan Jiang,Rui Meng,Xinyi Yang,Semih Yavuz,Yingbo Zhou,Wenhu Chen
発行日 2024-10-11 15:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks はコメントを受け付けていません

Can GPTs Evaluate Graphic Design Based on Design Principles?

要約

基礎モデルの最近の進歩により、グラフィック デザインの生成において有望な機能が示されています。
いくつかの研究では、LMM がグラフィック デザインの品質を適切に評価できると仮定して、グラフィック デザインを評価するために LMM を採用し始めていますが、その評価が信頼できるかどうかは不明です。
グラフィック デザインの品質を評価する 1 つの方法は、デザインがデザイナーの一般的な実践である基本的なグラフィック デザイン原則に準拠しているかどうかを評価することです。
この論文では、GPT ベースの評価と、60 人の被験者から収集したヒューマン アノテーションを使用した設計原則に基づくヒューリスティック評価の動作を比較します。
私たちの実験では、GPT は細部を区別できないものの、人間による注釈とかなり良好な相関関係があり、デザイン原則に基づくヒューリスティック指標に対して同様の傾向を示すことが明らかになりました。これは、GPT が実際にグラフィック デザインの品質を評価できることを示唆しています。
私たちのデータセットは https://cyberagentalab.github.io/Graphic-design-evaluation で入手できます。

要約(オリジナル)

Recent advancements in foundation models show promising capability in graphic design generation. Several studies have started employing Large Multimodal Models (LMMs) to evaluate graphic designs, assuming that LMMs can properly assess their quality, but it is unclear if the evaluation is reliable. One way to evaluate the quality of graphic design is to assess whether the design adheres to fundamental graphic design principles, which are the designer’s common practice. In this paper, we compare the behavior of GPT-based evaluation and heuristic evaluation based on design principles using human annotations collected from 60 subjects. Our experiments reveal that, while GPTs cannot distinguish small details, they have a reasonably good correlation with human annotation and exhibit a similar tendency to heuristic metrics based on design principles, suggesting that they are indeed capable of assessing the quality of graphic design. Our dataset is available at https://cyberagentailab.github.io/Graphic-design-evaluation .

arxiv情報

著者 Daichi Haraguchi,Naoto Inoue,Wataru Shimoda,Hayato Mitani,Seiichi Uchida,Kota Yamaguchi
発行日 2024-10-11 15:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Can GPTs Evaluate Graphic Design Based on Design Principles? はコメントを受け付けていません

Exploiting Memory-aware Q-distribution Prediction for Nuclear Fusion via Modern Hopfield Network

要約

この研究は、クリーン エネルギー ソリューションを前進させるための重要な要素である長期安定核融合タスクにおける Q 分布を予測するという重要な課題に取り組んでいます。
最新のホップフィールド ネットワークを採用して、歴史的なショットからの連想記憶を組み込む、革新的な深層学習フレームワークを紹介します。
新しくコンパイルされたデータセットを利用して、Q 分布予測を強化するアプローチの有効性を実証します。
提案された手法は、この文脈で初めて過去の記憶情報を活用することで大きな進歩を示し、予測精度の向上を示し、核融合研究の最適化に貢献します。

要約(オリジナル)

This study addresses the critical challenge of predicting the Q-distribution in long-term stable nuclear fusion task, a key component for advancing clean energy solutions. We introduce an innovative deep learning framework that employs Modern Hopfield Networks to incorporate associative memory from historical shots. Utilizing a newly compiled dataset, we demonstrate the effectiveness of our approach in enhancing Q-distribution prediction. The proposed method represents a significant advancement by leveraging historical memory information for the first time in this context, showcasing improved prediction accuracy and contributing to the optimization of nuclear fusion research.

arxiv情報

著者 Qingchuan Ma,Shiao Wang,Tong Zheng,Xiaodong Dai,Yifeng Wang,Qingquan Yang,Xiao Wang
発行日 2024-10-11 15:05:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploiting Memory-aware Q-distribution Prediction for Nuclear Fusion via Modern Hopfield Network はコメントを受け付けていません

Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models

要約

Large Vision-Language Model (LVLM) は、マルチモーダル入力をキャプチャして推論するための優れた機能を実証しています。
ただし、これらのモデルは、視覚コンポーネントと言語コンポーネントの間で表現された知識の不一致から生じる、パラメトリックな知識の競合が発生する傾向があります。
この論文では、$\textbf{クロスモダリティパラメトリック知識衝突}$ の問題を正式に定義し、それらを検出、解釈、軽減するための体系的なアプローチを提示します。
視覚的な回答とテキストによる回答の間の競合を特定するパイプラインを導入しました。これにより、モデルのサイズに関係なく、最近の LVLM ではモダリティ間で一貫して高い競合率が示されています。
これらの競合が推論プロセスにどのように干渉するかをさらに調査し、競合するサンプルを他のサンプルから識別するための対照的な指標を提案します。
これらの洞察に基づいて、応答の信頼性に基づいて、信頼性の低いモダリティコンポーネントから推測される望ましくないロジットを除去する、新しい動的対比復号化方法を開発します。
ロジットを提供しないモデルについては、競合を軽減するための 2 つのプロンプトベースの戦略も導入します。
私たちの手法は、ViQuAE データセットと InfoSeek データセットの両方で精度の確実な向上を実現します。
具体的には、LLaVA-34B を使用することで、私たちが提案する動的コントラスト復号化により、平均精度が 2.24% 向上します。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities for capturing and reasoning over multimodal inputs. However, these models are prone to parametric knowledge conflicts, which arise from inconsistencies of represented knowledge between their vision and language components. In this paper, we formally define the problem of $\textbf{cross-modality parametric knowledge conflict}$ and present a systematic approach to detect, interpret, and mitigate them. We introduce a pipeline that identifies conflicts between visual and textual answers, showing a persistently high conflict rate across modalities in recent LVLMs regardless of the model size. We further investigate how these conflicts interfere with the inference process and propose a contrastive metric to discern the conflicting samples from the others. Building on these insights, we develop a novel dynamic contrastive decoding method that removes undesirable logits inferred from the less confident modality components based on answer confidence. For models that do not provide logits, we also introduce two prompt-based strategies to mitigate the conflicts. Our methods achieve promising improvements in accuracy on both the ViQuAE and InfoSeek datasets. Specifically, using LLaVA-34B, our proposed dynamic contrastive decoding improves an average accuracy of 2.24%.

arxiv情報

著者 Tinghui Zhu,Qin Liu,Fei Wang,Zhengzhong Tu,Muhao Chen
発行日 2024-10-11 15:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models はコメントを受け付けていません

Bridge the Points: Graph-based Few-shot Segment Anything Semantically

要約

大規模な事前トレーニング技術の最近の進歩により、ビジョン基盤モデル、特にポイントおよびボックス プロンプトに基づいて正確なマスクを生成できるセグメント エニシング モデル (SAM) の機能が大幅に強化されました。
最近の研究では、SAM を少数ショット セマンティック セグメンテーション (FSS) に拡張し、SAM ベースの自動セマンティック セグメンテーションのプロンプト生成に焦点を当てています。
ただし、これらの方法では、適切なプロンプトを選択するのに苦労し、さまざまなシナリオに合わせて特定のハイパーパラメータ設定が必要であり、SAM の過剰使用によりワンショット推論時間が長くなり、効率が低く自動化機能が制限されます。
これらの問題に対処するために、グラフ分析に基づいたシンプルかつ効果的なアプローチを提案します。
特に、ポジティブ/ネガティブ アラインメント モジュールは、マスクを生成するためのポイント プロンプトを動的に選択し、特にネガティブ参照としての背景コンテキストの可能性を明らかにします。
後続の別のポイントマスク クラスタリング モジュールは、ポイント上のマスク カバレッジに基づいて、マスクと選択されたポイントの粒度を有向グラフとして調整します。
これらの点は、有向グラフの弱く接続されたコンポーネントを効率的な方法で分解することによって集約され、別個の自然なクラスターを構築します。
最後に、グラフベースの粒度調整の利点を活かしたポジティブ ゲートとオーバーシュート ゲーティングは、信頼性の高いマスクを集約し、最終予測のために偽陽性マスクをフィルタリングして除外し、追加のハイパーパラメータの使用と冗長なマスク生成を削減します。
標準 FSS、ワンショット パーツ セグメンテーション、およびクロスドメイン FSS データセットにわたる広範な実験分析により、提案されたアプローチの有効性と効率性が検証され、COCO-20i および 35.2 の mIoU が 58.7% という最先端のジェネラリスト モデルを上回っています。
LVIS-92i では %。
コードは https://andyzaq.github.io/GF-SAM/ で入手できます。

要約(オリジナル)

The recent advancements in large-scale pre-training techniques have significantly enhanced the capabilities of vision foundation models, notably the Segment Anything Model (SAM), which can generate precise masks based on point and box prompts. Recent studies extend SAM to Few-shot Semantic Segmentation (FSS), focusing on prompt generation for SAM-based automatic semantic segmentation. However, these methods struggle with selecting suitable prompts, require specific hyperparameter settings for different scenarios, and experience prolonged one-shot inference times due to the overuse of SAM, resulting in low efficiency and limited automation ability. To address these issues, we propose a simple yet effective approach based on graph analysis. In particular, a Positive-Negative Alignment module dynamically selects the point prompts for generating masks, especially uncovering the potential of the background context as the negative reference. Another subsequent Point-Mask Clustering module aligns the granularity of masks and selected points as a directed graph, based on mask coverage over points. These points are then aggregated by decomposing the weakly connected components of the directed graph in an efficient manner, constructing distinct natural clusters. Finally, the positive and overshooting gating, benefiting from graph-based granularity alignment, aggregate high-confident masks and filter out the false-positive masks for final prediction, reducing the usage of additional hyperparameters and redundant mask generation. Extensive experimental analysis across standard FSS, One-shot Part Segmentation, and Cross Domain FSS datasets validate the effectiveness and efficiency of the proposed approach, surpassing state-of-the-art generalist models with a mIoU of 58.7% on COCO-20i and 35.2% on LVIS-92i. The code is available in https://andyzaq.github.io/GF-SAM/.

arxiv情報

著者 Anqi Zhang,Guangyu Gao,Jianbo Jiao,Chi Harold Liu,Yunchao Wei
発行日 2024-10-11 15:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Bridge the Points: Graph-based Few-shot Segment Anything Semantically はコメントを受け付けていません