Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision

要約

人間は、多くの動物種と同様に、視覚的なシーン内のオブジェクトの数を認識し、おおよそ表現する能力を持っています。
この能力は幼少期を通じて向上し、学習と発達が私たちの数の感覚を形成する上で重要な役割を果たすことを示唆しています。
この仮説は、深層学習に基づいた計算による研究によってさらに裏付けられており、さまざまな数のアイテムを含む画像の統計的構造を学習するニューラル ネットワークでは、数の知覚が自発的に現れる可能性があることが示されています。
しかし、ニューラル ネットワーク モデルは、通常、自然環境の統計構造を忠実に反映していない可能性がある合成データセットを使用してトレーニングされており、人間の数の知覚を調査するために、より生態学的視覚刺激を使用することへの関心も高まっています。
この研究では、コンピューター ビジョン アルゴリズムの最近の進歩を利用して、日常生活の状況でオブジェクトを描写する何千もの実際の画像を含む大規模なデータセット内の数値と非数値の大きさの分布を推定するために使用できるオリジナルのパイプラインを設計および実装します。

自然な視覚シーンでは、さまざまな数値の出現頻度がべき乗則分布に従うことを示します。
さらに、数と連続的な大きさの相関構造が、データセットとシーン タイプ (同種のオブジェクト セットと異種のオブジェクト セット) にわたって安定していることを示します。
このような共分散の「生態学的」パターンを考慮することは、数性の判断に対する非数値的な視覚的手がかりの影響を理解するために重要であることを提案します。

要約(オリジナル)

Humans share with many animal species the ability to perceive and approximately represent the number of objects in visual scenes. This ability improves throughout childhood, suggesting that learning and development play a key role in shaping our number sense. This hypothesis is further supported by computational investigations based on deep learning, which have shown that numerosity perception can spontaneously emerge in neural networks that learn the statistical structure of images with a varying number of items. However, neural network models are usually trained using synthetic datasets that might not faithfully reflect the statistical structure of natural environments, and there is also growing interest in using more ecological visual stimuli to investigate numerosity perception in humans. In this work, we exploit recent advances in computer vision algorithms to design and implement an original pipeline that can be used to estimate the distribution of numerosity and non-numerical magnitudes in large-scale datasets containing thousands of real images depicting objects in daily life situations. We show that in natural visual scenes the frequency of appearance of different numerosities follows a power law distribution. Moreover, we show that the correlational structure for numerosity and continuous magnitudes is stable across datasets and scene types (homogeneous vs. heterogeneous object sets). We suggest that considering such ‘ecological’ pattern of covariance is important to understand the influence of non-numerical visual cues on numerosity judgements.

arxiv情報

著者 Kuinan Hou,Marco Zorzi,Alberto Testolin
発行日 2024-10-15 15:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision はコメントを受け付けていません

A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem

要約

事前トレーニングされた視覚言語基礎モデルの出現は、ゼロ/少数ショット (つまり、ローショット) 画像認識の分野に革命をもたらしました。
限られたトレーニング データの条件下で取り組むべき重要な課題は、パラメータ効率の高い方法で事前トレーニング済みの視覚言語モデルを微調整する方法です。
これまで、この課題に取り組む多くのアプローチが提案されてきました。
同時に、これらの研究を要約するいくつかの調査論文も出版されています。
しかし、既存の手法を統合し、その性質を特定し、詳細な比較をサポートするための統一された計算フレームワークがまだ不足しています。
そのため、この調査論文では、まず代表者定理の観点から統一的な計算フレームワークを提案し、次にこのフレームワークを特殊化することで既存の手法の多くを導き出します。
その後、既存の手法間の違いや関係を明らかにするために比較分析が行われます。
分析に基づいて、既存の作品を改善するためのいくつかの可能な変形が提示されます。
デモンストレーションとして、カーネル ヒルベルト空間 (RKHS) の再現における表現者間のクラス間相関をモデル化することで既存の手法を拡張します。これは、カーネル リッジ回帰の閉形式解を利用することによって実装されます。
この手法の有効性を検証するために、11 のデータセットに対する広範な実験が行われています。
この文書の終わりに向けて、その限界について説明し、さらなる研究の方向性を示します。

要約(オリジナル)

The advent of pre-trained vision-language foundation models has revolutionized the field of zero/few-shot (i.e., low-shot) image recognition. The key challenge to address under the condition of limited training data is how to fine-tune pre-trained vision-language models in a parameter-efficient manner. Previously, numerous approaches tackling this challenge have been proposed. Meantime, a few survey papers are also published to summarize these works. However, there still lacks a unified computational framework to integrate existing methods together, identify their nature and support in-depth comparison. As such, this survey paper first proposes a unified computational framework from the perspective of Representer Theorem and then derives many of the existing methods by specializing this framework. Thereafter, a comparative analysis is conducted to uncover the differences and relationships between existing methods. Based on the analyses, some possible variants to improve the existing works are presented. As a demonstration, we extend existing methods by modeling inter-class correlation between representers in reproducing kernel Hilbert space (RKHS), which is implemented by exploiting the closed-form solution of kernel ridge regression. Extensive experiments on 11 datasets are conducted to validate the effectiveness of this method. Toward the end of this paper, we discuss the limitations and provide further research directions.

arxiv情報

著者 Kun Ding,Ying Wang,Gaofeng Meng,Shiming Xiang
発行日 2024-10-15 15:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem はコメントを受け付けていません

Visual Fixation-Based Retinal Prosthetic Simulation

要約

この研究では、サッケード機構にヒントを得て、視覚固視によって駆動される人工網膜シミュレーション フレームワークを提案し、分類タスクにおけるエンドツーエンドの最適化を通じてパフォーマンスの向上を評価します。
顕著なパッチは、視覚変換器の自己注意マップを使用して入力画像から予測され、固視を模倣します。
これらのパッチは、トレーニング可能な U-Net によってエンコードされ、pulse2percept フレームワークを使用してシミュレートされ、視覚知覚を予測します。
学習可能なエンコーダを組み込むことで、網膜インプラントに送信される視覚情報を最適化し、電極アレイの限られた解像度と、入力刺激と結果として生じるホスフェンの間の歪みの両方に対処することを目指しています。
予測された知覚は、分類精度を高めるためのオプションの学習可能な線形レイヤーを使用して、自己教師あり DINOv2 基礎モデルを使用して評価されます。
ImageNet 検証セットのサブセットでは、固視ベースのフレームワークは、実際の被験者の生理学的データに基づく計算パラメーターを使用して 87.72% の分類精度を達成し、ダウンサンプリングベースの精度 40.59% を大幅に上回り、分類精度の健全な上限に近づいています。
92.76%。
私たちのアプローチは、人工網膜で利用できる限られた解像度で、より意味的に理解可能な知覚を生み出す有望な可能性を示しています。

要約(オリジナル)

This study proposes a retinal prosthetic simulation framework driven by visual fixations, inspired by the saccade mechanism, and assesses performance improvements through end-to-end optimization in a classification task. Salient patches are predicted from input images using the self-attention map of a vision transformer to mimic visual fixations. These patches are then encoded by a trainable U-Net and simulated using the pulse2percept framework to predict visual percepts. By incorporating a learnable encoder, we aim to optimize the visual information transmitted to the retinal implant, addressing both the limited resolution of the electrode array and the distortion between the input stimuli and resulting phosphenes. The predicted percepts are evaluated using the self-supervised DINOv2 foundation model, with an optional learnable linear layer for classification accuracy. On a subset of the ImageNet validation set, the fixation-based framework achieves a classification accuracy of 87.72%, using computational parameters based on a real subject’s physiological data, significantly outperforming the downsampling-based accuracy of 40.59% and approaching the healthy upper bound of 92.76%. Our approach shows promising potential for producing more semantically understandable percepts with the limited resolution available in retinal prosthetics.

arxiv情報

著者 Yuli Wu,Do Dinh Tan Nguyen,Henning Konermann,Rüveyda Yilmaz,Peter Walter,Johannes Stegmaier
発行日 2024-10-15 15:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE | Visual Fixation-Based Retinal Prosthetic Simulation はコメントを受け付けていません

Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor

要約

データポイズニング バックドア攻撃は、機械学習モデルに対する重大なセキュリティ上の脅威であり、攻撃者がトレーニング データセットを操作してモデルにバックドアを挿入する可能性があります。
このペーパーでは、データセットが汚染されている可能性がある場合でもクリーンなモデルをトレーニングすることを目的として、トレーニング中のバックドア防御に焦点を当てています。
悪意のあるバックドア攻撃を軽減するために、主に疑わしいサンプルを検出して削除/学習解除する既存のほとんどの方法とは異なり、PDB (Proactive Defensive Backdoor) と呼ばれる新しい防御アプローチを提案します。
具体的には、PDB は、トレーニング中にモデルに防御的なバックドアを積極的に挿入することで、守備側のホームフィールドの利点を活用します。
防御的バックドアは、トレーニング プロセスの制御を利用して、攻撃者に対して秘密を保ちながら、悪意のあるバックドアを効果的に抑制するように設計されています。
さらに、防御ターゲットのラベルを決定するための可逆マッピングを導入します。
推論中、PDB は入力に防御トリガーを埋め込み、モデルの予測を逆にして、悪意のあるバックドアを抑制し、元のタスクでのモデルの有用性を確保します。
さまざまなデータセットとモデルにわたる実験結果は、私たちのアプローチが広範なバックドア攻撃に対して最先端の防御パフォーマンスを達成していることを示しています。
コードは https://github.com/shawkui/Proactive_Defensive_Backdoor で入手できます。

要約(オリジナル)

Data-poisoning backdoor attacks are serious security threats to machine learning models, where an adversary can manipulate the training dataset to inject backdoors into models. In this paper, we focus on in-training backdoor defense, aiming to train a clean model even when the dataset may be potentially poisoned. Unlike most existing methods that primarily detect and remove/unlearn suspicious samples to mitigate malicious backdoor attacks, we propose a novel defense approach called PDB (Proactive Defensive Backdoor). Specifically, PDB leverages the home-field advantage of defenders by proactively injecting a defensive backdoor into the model during training. Taking advantage of controlling the training process, the defensive backdoor is designed to suppress the malicious backdoor effectively while remaining secret to attackers. In addition, we introduce a reversible mapping to determine the defensive target label. During inference, PDB embeds a defensive trigger in the inputs and reverses the model’s prediction, suppressing malicious backdoor and ensuring the model’s utility on the original task. Experimental results across various datasets and models demonstrate that our approach achieves state-of-the-art defense performance against a wide range of backdoor attacks. The code is available at https://github.com/shawkui/Proactive_Defensive_Backdoor.

arxiv情報

著者 Shaokui Wei,Hongyuan Zha,Baoyuan Wu
発行日 2024-10-15 15:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor はコメントを受け付けていません

POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search

要約

顔ランドマーク検出 (FLD) では、精度と効率のバランスを達成することが重要な課題です。
このペーパーでは、従来の FLD 手法の根本的な制限に対処するために設計された高精度のエンコード/デコード フレームワークである Parallel Optimal Position Search (POPoS) を紹介します。
POPoS は 3 つの重要なイノベーションを採用しています。 (1) 擬似距離マルチラテレーションを利用してヒートマップ エラーを修正し、ランドマーク位置特定の精度を高めます。
このアプローチでは、複数のアンカー ポイントを統合することで、個々のヒートマップの不正確さの影響が最小限に抑えられ、全体的な位置決めが堅牢になります。
(2) 選択されたアンカー ポイントの擬似距離精度を向上させるために、マルチラテレーション アンカー損失と呼ばれる新しい損失関数が提案されます。
この損失関数は、距離マップの精度を効果的に高め、局所最適のリスクを軽減し、最適なソリューションを保証します。
(3) シングルステップ並列計算アルゴリズムが導入され、計算効率が大幅に向上し、処理時間が短縮されます。
5 つのベンチマーク データセットにわたる包括的な評価では、POPoS が既存の手法より一貫して優れたパフォーマンスを示し、特に計算オーバーヘッドを最小限に抑えた低解像度のシナリオで優れていることが実証されています。
これらの機能により、POPoS は FLD 用の非常に効率的かつ正確なツールとして確立され、現実世界のシナリオに幅広く適用できます。
コードは https://github.com/teslatasy/PoPoS で入手できます。

要約(オリジナル)

Achieving a balance between accuracy and efficiency is a critical challenge in facial landmark detection (FLD). This paper introduces the Parallel Optimal Position Search (POPoS), a high-precision encoding-decoding framework designed to address the fundamental limitations of traditional FLD methods. POPoS employs three key innovations: (1) Pseudo-range multilateration is utilized to correct heatmap errors, enhancing the precision of landmark localization. By integrating multiple anchor points, this approach minimizes the impact of individual heatmap inaccuracies, leading to robust overall positioning. (2) To improve the pseudo-range accuracy of selected anchor points, a new loss function, named multilateration anchor loss, is proposed. This loss function effectively enhances the accuracy of the distance map, mitigates the risk of local optima, and ensures optimal solutions. (3) A single-step parallel computation algorithm is introduced, significantly enhancing computational efficiency and reducing processing time. Comprehensive evaluations across five benchmark datasets demonstrate that POPoS consistently outperforms existing methods, particularly excelling in low-resolution scenarios with minimal computational overhead. These features establish POPoS as a highly efficient and accurate tool for FLD, with broad applicability in real-world scenarios. The code is available at https://github.com/teslatasy/PoPoS

arxiv情報

著者 Chong-Yang Xiang,Jun-Yan He,Zhi-Qi Cheng,Xiao Wu,Xian-Sheng Hua
発行日 2024-10-15 15:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search はコメントを受け付けていません

Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions

要約

マルチモーダル大規模言語モデル (MLLM) における幻覚は、実際の応用を妨げます。
これに対処するために、我々は拡大鏡プロンプト (MagPrompt) を提案します。これは、非常に簡単な指示で MLLM の幻覚に対処するためのシンプルかつ効果的な方法です。
MagPrompt は、次の 2 つの重要な原則に基づいており、さまざまな効果的なプロンプトの設計をガイドし、堅牢性を実証しています。 (1) MLLM は画像にもっと重点を置く必要があります。
(2) 画像とモデルの内部知識の間に矛盾がある場合、MLLM は画像を優先する必要があります。
MagPrompt はトレーニング不要で、GPT-4o や Gemini-pro などのオープンソースおよびクローズドソース モデルに適用できます。
これは多くのデータセットで良好なパフォーマンスを発揮し、その有効性は VCD のようなより複雑な方法と同等かそれ以上です。
さらに、当社の即時設計原則と実験分析は、マルチモーダル幻覚に関する貴重な洞察を提供します。

要約(オリジナル)

Hallucinations in multimodal large language models (MLLMs) hinder their practical applications. To address this, we propose a Magnifier Prompt (MagPrompt), a simple yet effective method to tackle hallucinations in MLLMs via extremely simple instructions. MagPrompt is based on the following two key principles, which guide the design of various effective prompts, demonstrating robustness: (1) MLLMs should focus more on the image. (2) When there are conflicts between the image and the model’s inner knowledge, MLLMs should prioritize the image. MagPrompt is training-free and can be applied to open-source and closed-source models, such as GPT-4o and Gemini-pro. It performs well across many datasets and its effectiveness is comparable or even better than more complex methods like VCD. Furthermore, our prompt design principles and experimental analyses provide valuable insights into multimodal hallucination.

arxiv情報

著者 Yuhan Fu,Ruobing Xie,Jiazhen Liu,Bangxiang Lan,Xingwu Sun,Zhanhui Kang,Xirong Li
発行日 2024-10-15 15:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Magnifier Prompt: Tackling Multimodal Hallucination via Extremely Simple Instructions はコメントを受け付けていません

It’s Just Another Day: Unique Video Captioning by Discriminative Prompting

要約

長いビデオには、繰り返しのアクション、イベント、ショットが多数含まれています。
これらの繰り返しには同一のキャプションが付けられることが多く、テキスト検索を使用して目的のクリップを正確に取得することが困難になります。
この論文では、一意のキャプションの問題を定式化します。同じキャプションを持つ複数のクリップがある場合、クリップごとにそれを一意に識別する新しいキャプションを生成します。
我々は、同一のキャプションが付けられたクリップを分離できるプロパティを予測し、それを使用して一意のキャプションを生成する、識別プロンプティング (CDP) によるキャプションを提案します。
繰り返しのアクションが一般的である自己中心的な映像とタイムループ映画に基づいた、ユニークなキャプションのための 2 つのベンチマークを紹介します。
CDP によって生成されたキャプションにより、テキストからビデオへの R@1 が自己中心的なビデオでは 15%、タイムループ映画では 10% 向上することを示します。

要約(オリジナル)

Long videos contain many repeating actions, events and shots. These repetitions are frequently given identical captions, which makes it difficult to retrieve the exact desired clip using a text search. In this paper, we formulate the problem of unique captioning: Given multiple clips with the same caption, we generate a new caption for each clip that uniquely identifies it. We propose Captioning by Discriminative Prompting (CDP), which predicts a property that can separate identically captioned clips, and use it to generate unique captions. We introduce two benchmarks for unique captioning, based on egocentric footage and timeloop movies – where repeating actions are common. We demonstrate that captions generated by CDP improve text-to-video R@1 by 15% for egocentric videos and 10% in timeloop movies.

arxiv情報

著者 Toby Perrett,Tengda Han,Dima Damen,Andrew Zisserman
発行日 2024-10-15 15:41:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | It’s Just Another Day: Unique Video Captioning by Discriminative Prompting はコメントを受け付けていません

Robotic Arm Platform for Multi-View Image Acquisition and 3D Reconstruction in Minimally Invasive Surgery

要約

低侵襲手術 (MIS) は、回復時間の短縮や患者の外傷の最小化などの大きな利点をもたらしますが、視認性とアクセスに課題があり、正確な 3D 再構成が手術の計画とナビゲーションにおける重要なツールとなっています。
この研究では、MIS 設定における効率的なマルチビュー画像取得と正確な 3D 再構成のためのロボット アーム プラットフォームを紹介します。
私たちは、腹腔鏡をロボットアームに適合させ、さまざまな照明条件(手術室と腹腔鏡)および軌道(球状と腹腔鏡)にわたっていくつかのヒツジ臓器の体外画像を撮影しました。
最近リリースされた学習ベースの特徴マッチャーを COLMAP と組み合わせて使用​​し、再構成を作成しました。
定量的評価のために、再構成は高精度レーザースキャンに対して評価されました。
私たちの結果は、現実的な MIS 照明と軌道の下では再構成が最も困難になる一方、パイプラインの多くのバージョンは平均 1.05 mm の二乗平均平方根誤差と 0.82 mm の面取り距離でサブミリメートルに近い精度を達成していることを示しています。
手術室の照明と球状の軌道を使用すると、最良の再構成結果が得られます。
当社のロボット プラットフォームは、MIS 環境での 3D 生成のための、制御された反復可能なマルチビュー データ収集のためのツールを提供します。これが、学習ベースのモデルをトレーニングするための新しいデータセットにつながることを期待しています。

要約(オリジナル)

Minimally invasive surgery (MIS) offers significant benefits such as reduced recovery time and minimised patient trauma, but poses challenges in visibility and access, making accurate 3D reconstruction a significant tool in surgical planning and navigation. This work introduces a robotic arm platform for efficient multi-view image acquisition and precise 3D reconstruction in MIS settings. We adapted a laparoscope to a robotic arm and captured ex-vivo images of several ovine organs across varying lighting conditions (operating room and laparoscopic) and trajectories (spherical and laparoscopic). We employed recently released learning-based feature matchers combined with COLMAP to produce our reconstructions. The reconstructions were evaluated against high-precision laser scans for quantitative evaluation. Our results show that whilst reconstructions suffer most under realistic MIS lighting and trajectory, many versions of our pipeline achieve close to sub-millimetre accuracy with an average of 1.05 mm Root Mean Squared Error and 0.82 mm Chamfer distance. Our best reconstruction results occur with operating room lighting and spherical trajectories. Our robotic platform provides a tool for controlled, repeatable multi-view data acquisition for 3D generation in MIS environments which we hope leads to new datasets for training learning-based models.

arxiv情報

著者 Alexander Saikia,Chiara Di Vece,Sierra Bonilla,Chloe He,Morenike Magbagbeola,Laurent Mennillo,Tobias Czempiel,Sophia Bano,Danail Stoyanov
発行日 2024-10-15 15:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Robotic Arm Platform for Multi-View Image Acquisition and 3D Reconstruction in Minimally Invasive Surgery はコメントを受け付けていません

LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations

要約

対照的インスタンス識別手法は、画像分類や物体検出などの下流タスクにおいて教師あり学習よりも優れたパフォーマンスを発揮します。
ただし、これらの方法は表現学習中のデータ拡張に大きく依存しているため、慎重に実装しないと次善の結果が得られる可能性があります。
対照学習における一般的な拡張手法は、ランダムなトリミングとそれに続くサイズ変更です。
これにより、2 つのランダムなクロップに異なる意味論的なコンテンツが含まれる場合、表現学習の品質が低下する可能性があります。
この問題に取り組むために、新しいインスタンス識別アプローチと適応損失関数を採用したフレームワークである LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations) を導入します。
この方法は、表現学習中にさまざまなオブジェクト部分をマッピングすることによって引き起こされる重要な意味論的特徴の損失を防ぎます。
私たちの実験は、LeOCLR がさまざまなデータセットにわたって表現学習を一貫して向上させ、ベースライン モデルを上回るパフォーマンスを示していることを示しています。
たとえば、LeOCLR は、線形評価において ImageNet-1K 上で MoCo-v2 を 5.1% 上回り、転移学習および物体検出タスクにおいては他のいくつかの方法よりも優れています。

要約(オリジナル)

Contrastive instance discrimination methods outperform supervised learning in downstream tasks such as image classification and object detection. However, these methods rely heavily on data augmentation during representation learning, which can lead to suboptimal results if not implemented carefully. A common augmentation technique in contrastive learning is random cropping followed by resizing. This can degrade the quality of representation learning when the two random crops contain distinct semantic content. To tackle this issue, we introduce LeOCLR (Leveraging Original Images for Contrastive Learning of Visual Representations), a framework that employs a novel instance discrimination approach and an adapted loss function. This method prevents the loss of important semantic features caused by mapping different object parts during representation learning. Our experiments demonstrate that LeOCLR consistently improves representation learning across various datasets, outperforming baseline models. For instance, LeOCLR surpasses MoCo-v2 by 5.1% on ImageNet-1K in linear evaluation and outperforms several other methods on transfer learning and object detection tasks.

arxiv情報

著者 Mohammad Alkhalefi,Georgios Leontidis,Mingjun Zhong
発行日 2024-10-15 15:52:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations はコメントを受け付けていません

RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation

要約

Segment Anything (SAM) の出現により、特に画像編集タスクやデータ アノテーションの高速化のコンテキストにおいて、インタラクティブ セグメンテーションの分野における研究への関心が高まりました。
一般的なセマンティック セグメンテーションとは異なり、インタラクティブ セグメンテーション手法では、ユーザーがプロンプト (クリックなど) を通じて出力に直接影響を与えることができます。
ただし、現実世界のインタラクティブ セグメンテーション シナリオにおけるクリック パターンは、ほとんど解明されていないままです。
ほとんどの方法は、ユーザーが最大のエラー領域の中心をクリックするという想定に基づいています。
それにもかかわらず、最近の研究は、これが常に当てはまるわけではないことを示しています。
したがって、ベースライン ベンチマークのメトリクスが高いにもかかわらず、実際の展開ではメソッドのパフォーマンスが低下する可能性があります。
実際のユーザーのクリックを正確にシミュレートするために、インタラクティブ セグメンテーション シナリオにおけるクリック パターンに関する大規模なクラウドソーシング調査を実施し、475,000 件の実際のユーザー クリックを収集しました。
顕著性タスクからのアイデアに基づいて、実際のユーザー入力に非常に近いクリックのサンプリングを可能にするクリック可能性モデルを開発します。
私たちのモデルとデータセットを使用して、現実的なクリックに関する既存のインタラクティブ セグメンテーション手法を包括的に比較するための RClicks ベンチマークを提案します。
具体的には、メソッドの平均品質だけでなく、あらゆる点での堅牢性も評価します。
パターンをクリックします。
私たちのベンチマークによると、実際の使用状況では、インタラクティブ セグメンテーション モデルのパフォーマンスはベースライン ベンチマークで報告されているよりも悪くなる可能性があり、ほとんどの手法は堅牢ではありません。
私たちは、RClicks が、実際のケースで最高のユーザー エクスペリエンスを提供するインタラクティブなセグメンテーション手法の作成に向けた重要な一歩であると信じています。

要約(オリジナル)

The emergence of Segment Anything (SAM) sparked research interest in the field of interactive segmentation, especially in the context of image editing tasks and speeding up data annotation. Unlike common semantic segmentation, interactive segmentation methods allow users to directly influence their output through prompts (e.g. clicks). However, click patterns in real-world interactive segmentation scenarios remain largely unexplored. Most methods rely on the assumption that users would click in the center of the largest erroneous area. Nevertheless, recent studies show that this is not always the case. Thus, methods may have poor performance in real-world deployment despite high metrics in a baseline benchmark. To accurately simulate real-user clicks, we conducted a large crowdsourcing study of click patterns in an interactive segmentation scenario and collected 475K real-user clicks. Drawing on ideas from saliency tasks, we develop a clickability model that enables sampling clicks, which closely resemble actual user inputs. Using our model and dataset, we propose RClicks benchmark for a comprehensive comparison of existing interactive segmentation methods on realistic clicks. Specifically, we evaluate not only the average quality of methods, but also the robustness w.r.t. click patterns. According to our benchmark, in real-world usage interactive segmentation models may perform worse than it has been reported in the baseline benchmark, and most of the methods are not robust. We believe that RClicks is a significant step towards creating interactive segmentation methods that provide the best user experience in real-world cases.

arxiv情報

著者 Anton Antonov,Andrey Moskalenko,Denis Shepelev,Alexander Krapukhin,Konstantin Soshin,Anton Konushin,Vlad Shakhuro
発行日 2024-10-15 15:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, I.4.6 | RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation はコメントを受け付けていません