Conformal Predictions for Human Action Recognition with Vision-Language Models

要約

Human-in-the-Loop(HITL)フレームワークは、多くの現実世界のコンピュータービジョンシステムに不可欠であり、人間のオペレーターがAI支援で情報に基づいた意思決定を行うことができます。
グラウンドトゥルースインクルージョンの確率に関する厳格な保証をラベルセットに提供するコンフォーマル予測(CP)は、最近、HITL設定の貴重なツールとして牽引力を獲得しました。
重要なアプリケーション領域の1つは、人間の行動認識(HAR)と密接に関連するビデオ監視です。
この研究では、先立って訓練された視覚言語モデル(VLM)を利用する最先端のHARメソッドの上にCPの適用を調査します。
私たちの調査結果は、CPが基礎となるVLMを変更せずに候補クラスの平均数を大幅に削減できることを明らかにしています。
ただし、これらの削減は、しばしば長い尾を持つ分布をもたらします。
これに対処するために、追加のキャリブレーションデータを必要とせずにこれらのテールを最小限に抑えるために、VLMSの温度パラメーターを調整することに基づいてメソッドを紹介します。
私たちのコードは、アドレスhttps://github.com/tbary/cp4vlmのGithubで利用可能になります。

要約(オリジナル)

Human-In-The-Loop (HITL) frameworks are integral to many real-world computer vision systems, enabling human operators to make informed decisions with AI assistance. Conformal Predictions (CP), which provide label sets with rigorous guarantees on ground truth inclusion probabilities, have recently gained traction as a valuable tool in HITL settings. One key application area is video surveillance, closely associated with Human Action Recognition (HAR). This study explores the application of CP on top of state-of-the-art HAR methods that utilize extensively pre-trained Vision-Language Models (VLMs). Our findings reveal that CP can significantly reduce the average number of candidate classes without modifying the underlying VLM. However, these reductions often result in distributions with long tails. To address this, we introduce a method based on tuning the temperature parameter of the VLMs to minimize these tails without requiring additional calibration data. Our code is made available on GitHub at the address https://github.com/tbary/CP4VLM.

arxiv情報

著者 Bary Tim,Fuchs Clément,Macq Benoît
発行日 2025-02-10 16:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Conformal Predictions for Human Action Recognition with Vision-Language Models はコメントを受け付けていません

Few-Shot Classification and Anatomical Localization of Tissues in SPECT Imaging

要約

正確な分類と解剖学的局在は、効果的な医療診断と研究に不可欠であり、深い学習技術を使用して効率的に実行される可能性があります。
ただし、限られたラベル付きデータの可用性は大きな課題をもたらします。
これに対処するために、単一の光子排出量コンピューター断層撮影(SPECT)画像で、それぞれ少数のショット分類とローカリゼーションのために、プロトタイプネットワークと伝播再構築ネットワーク(PRNET)を適応させました。
概念実証のために、心臓の周りにトリミングされた2Dスライス画像を使用しました。
96.67%のトレーニングと93.33%の検証精度を備えた、事前に訓練されたResNet-18バックボーン、分類された心室、心筋、および肝臓組織を備えたプロトタイプネットワーク。
Encoder-Decoderアーキテクチャとスキップ接続を備えた2Dイメージングに適応したPRNETは、1.395のトレーニング損失を達成し、パッチを正確に再構築し、空間関係をキャプチャしました。
これらの結果は、限られたラベル付きデータと解剖学的ランドマークのローカリゼーションのPRNETを使用した組織分類のプロトタイプネットワークの可能性を強調し、ディープラーニングフレームワークのパフォーマンスを改善する方法を開催します。

要約(オリジナル)

Accurate classification and anatomical localization are essential for effective medical diagnostics and research, which may be efficiently performed using deep learning techniques. However, availability of limited labeled data poses a significant challenge. To address this, we adapted Prototypical Networks and the Propagation-Reconstruction Network (PRNet) for few-shot classification and localization, respectively, in Single Photon Emission Computed Tomography (SPECT) images. For the proof of concept we used a 2D-sliced image cropped around heart. The Prototypical Network, with a pre-trained ResNet-18 backbone, classified ventricles, myocardium, and liver tissues with 96.67% training and 93.33% validation accuracy. PRNet, adapted for 2D imaging with an encoder-decoder architecture and skip connections, achieved a training loss of 1.395, accurately reconstructing patches and capturing spatial relationships. These results highlight the potential of Prototypical Networks for tissue classification with limited labeled data and PRNet for anatomical landmark localization, paving the way for improved performance in deep learning frameworks.

arxiv情報

著者 Mohammed Abdul Hafeez Khan,Samuel Morries Boddepalli,Siddhartha Bhattacharyya,Debasis Mitra
発行日 2025-02-10 16:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Few-Shot Classification and Anatomical Localization of Tissues in SPECT Imaging はコメントを受け付けていません

Do generative video models learn physical principles from watching videos?

要約

AIビデオ生成は革命を起こしており、品質とリアリズムが急速に進歩しています。
これらの進歩は、情熱的な科学的議論につながりました。ビデオモデルは物理学の法則を発見する「世界モデル」を学びますか、それとも、現実の物理的原則を理解せずに視覚的リアリズムを達成する洗練されたピクセル予測因子ですか?
この質問に対処し、物理学-IQを開発します。これは、流体のダイナミクス、光学、固体力学、磁気、熱力学など、さまざまな物理的原理を深く理解することによってのみ解決できる包括的なベンチマークデータセットです。
さまざまな現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、videopoet)にわたって、身体的理解は厳しく制限されており、視覚的リアリズムとは無関係であることがわかります。
同時に、一部のテストケースはすでに正常に解決できます。
これは、観察だけで特定の物理的原則を獲得することが可能であることを示していますが、重要な課題が残っています。
私たちの仕事は、急速な進歩を期待していますが、私たちの仕事は視覚的リアリズムが肉体的理解を暗示していないことを示しています。
プロジェクトページはhttps://physics-iq.github.ioにあります。
https://github.com/google-deepmind/physics-iq-benchmarkのコード。

要約(オリジナル)

AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ‘world models’ that discover laws of physics — or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.

arxiv情報

著者 Saman Motamed,Laura Culp,Kevin Swersky,Priyank Jaini,Robert Geirhos
発行日 2025-02-10 16:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Do generative video models learn physical principles from watching videos? はコメントを受け付けていません

Prototype Contrastive Consistency Learning for Semi-Supervised Medical Image Segmentation

要約

医療画像のセグメンテーションは、医療画像分析において重要なタスクですが、特にラベルが少ないデータがあるが、大きな非標識データがある場合は非常に困難な場合があります。
対照的な学習は、部分ピクセルから対照的なサンプルを構築することにより、半監視学習における医療画像セグメンテーションに効果的であることが証明されています。
ただし、以前の対照学習方法は画像内の部分ピクセルからセマンティック情報を採掘することができますが、無効な画像のコンテキスト情報全体を無視します。これは、正確なセグメンテーションにとって非常に重要です。
この問題を解決するために、半監視された医療イメージセグメンテーションのプロトタイプコントラシティブな一貫性セグメンテーション(PCC)と呼ばれる新しいプロトタイプコントラスト学習方法を提案します。
核となるアイデアは、同じセマンティッククラスのプロトタイプを強制して、互いに遠く離れた異なるセマンティッククラスでプロトタイプをプッシュすることです。
具体的には、署名された距離マップと、非標識画像から不確実性マップを作成します。
署名された距離マップは、対照学習のためにプロトタイプを構築するために使用され、プロトタイプ間のトレードオフとして不確実性マップからのプロトタイプの不確実性を推定します。
学生と教師のアーキテクチャに基づいて、より良いプロトタイプを取得するために、プロトタイプの更新プロトタイプという名前の新しいメカニズムが、対照的な学習のためにプロトタイプの更新を支援するように設計されています。
さらに、無効なデータからより信頼できる情報を採掘するために、不確実性のない損失を提案します。
医療画像セグメンテーションに関する広範な実験は、PCCが最先端の方法よりも優れたセグメンテーションパフォーマンスを達成することを示しています。
このコードは、https://github.com/comphsh/pccsで入手できます。

要約(オリジナル)

Medical image segmentation is a crucial task in medical image analysis, but it can be very challenging especially when there are less labeled data but with large unlabeled data. Contrastive learning has proven to be effective for medical image segmentation in semi-supervised learning by constructing contrastive samples from partial pixels. However, although previous contrastive learning methods can mine semantic information from partial pixels within images, they ignore the whole context information of unlabeled images, which is very important to precise segmentation. In order to solve this problem, we propose a novel prototype contrastive learning method called Prototype Contrastive Consistency Segmentation (PCCS) for semi-supervised medical image segmentation. The core idea is to enforce the prototypes of the same semantic class to be closer and push the prototypes in different semantic classes far away from each other. Specifically, we construct a signed distance map and an uncertainty map from unlabeled images. The signed distance map is used to construct prototypes for contrastive learning, and then we estimate the prototype uncertainty from the uncertainty map as trade-off among prototypes. In order to obtain better prototypes, based on the student-teacher architecture, a new mechanism named prototype updating prototype is designed to assist in updating the prototypes for contrastive learning. In addition, we propose an uncertainty-consistency loss to mine more reliable information from unlabeled data. Extensive experiments on medical image segmentation demonstrate that PCCS achieves better segmentation performance than the state-of-the-art methods. The code is available at https://github.com/comphsh/PCCS.

arxiv情報

著者 Shihuan He,Zhihui Lai,Ruxin Wang,Heng Kong
発行日 2025-02-10 16:40:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.6 | Prototype Contrastive Consistency Learning for Semi-Supervised Medical Image Segmentation はコメントを受け付けていません

Generalizable Implicit Motion Modeling for Video Frame Interpolation

要約

モーションモデリングは、フローベースのビデオフレーム補間(VFI)で重要です。
既存のパラダイムは、双方向の流れの線形組み合わせを考慮するか、好ましい運動前を探索することなく、与えられたタイムスタンプの両側の流れを直接予測するため、実際のビデオで時空間ダイナミクスを効果的にモデル化する能力が欠けています。
この制限に対処するために、この研究では、VFIのモーションモデリングへの斬新かつ効果的なアプローチである一般化可能な暗黙的モーションモデリング(GIMM)を紹介します。
具体的には、GIMMを効果的なモーションモデリングパラダイムとして有効にするために、事前に訓練された流量推定器から抽出された双方向フローから潜在的な時空間運動をモデル化するパイプラインをコードする動きを設計し、入力固有の動きを効果的に表します。
次に、時空間座標と動きが入力として潜在的な潜在的な座標ベースのニューラルネットワークを介して、2つの隣接する入力フレーム内の任意のティメステップ光学フローを暗黙的に予測します。
私たちのGIMMは、正確にモデル化された動きを提供することにより、既存のフローベースのVFI作業と簡単に統合できます。
GIMMは、標準のVFIベンチマーク上の現在の最新のアートよりも優れていることを示しています。

要約(オリジナル)

Motion modeling is critical in flow-based Video Frame Interpolation (VFI). Existing paradigms either consider linear combinations of bidirectional flows or directly predict bilateral flows for given timestamps without exploring favorable motion priors, thus lacking the capability of effectively modeling spatiotemporal dynamics in real-world videos. To address this limitation, in this study, we introduce Generalizable Implicit Motion Modeling (GIMM), a novel and effective approach to motion modeling for VFI. Specifically, to enable GIMM as an effective motion modeling paradigm, we design a motion encoding pipeline to model spatiotemporal motion latent from bidirectional flows extracted from pre-trained flow estimators, effectively representing input-specific motion priors. Then, we implicitly predict arbitrary-timestep optical flows within two adjacent input frames via an adaptive coordinate-based neural network, with spatiotemporal coordinates and motion latent as inputs. Our GIMM can be easily integrated with existing flow-based VFI works by supplying accurately modeled motion. We show that GIMM performs better than the current state of the art on standard VFI benchmarks.

arxiv情報

著者 Zujin Guo,Wei Li,Chen Change Loy
発行日 2025-02-10 16:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalizable Implicit Motion Modeling for Video Frame Interpolation はコメントを受け付けていません

CHIRLA: Comprehensive High-resolution Identification and Re-identification for Large-scale Analysis

要約

人の再識別(REID)は、コンピュータービジョンの重要な課題であり、さまざまなカメラ、場所、および期間にわたる個人のマッチングが必要です。
ほとんどの研究では、外観の変更が最小限の短期シナリオに焦点を当てていますが、実際のアプリケーションでは、衣服や身体的特性の変動により、人の外観が大幅に変化する可能性がある長期シナリオを処理できる堅牢なReidシステムが必要です。
このホワイトペーパーでは、長期的な人のために特別に設計された新しいデータセットである大規模分析のための包括的な高解像度の識別と再識別チャイラを提示します。
Chirlaは、7か月間にわたって戦略的に配置されたカメラからの録音で構成されており、参加者の衣服や物理的特徴の制御された変更を含む、時間的属性と外観の両方の属性の両方に大きなばらつきを捉えています。
データセットには、22人の個人、4つの接続された屋内環境、7つのカメラが含まれます。
5時間以上のビデオを収集し、それを半自動的にラベル付けして、アイデンティティアノテーションを備えた約100万個の境界ボックスを生成しました。
この包括的なベンチマークを導入することにより、私たちは、挑戦的で長期的な現実世界のシナリオで確実に実行できるReidアルゴリズムの開発と評価を促進することを目指しています。

要約(オリジナル)

Person re-identification (Re-ID) is a key challenge in computer vision, requiring the matching of individuals across different cameras, locations, and time periods. While most research focuses on short-term scenarios with minimal appearance changes, real-world applications demand robust Re-ID systems capable of handling long-term scenarios, where persons’ appearances can change significantly due to variations in clothing and physical characteristics. In this paper, we present CHIRLA, Comprehensive High-resolution Identification and Re-identification for Large-scale Analysis, a novel dataset specifically designed for long-term person Re-ID. CHIRLA consists of recordings from strategically placed cameras over a seven-month period, capturing significant variations in both temporal and appearance attributes, including controlled changes in participants’ clothing and physical features. The dataset includes 22 individuals, four connected indoor environments, and seven cameras. We collected more than five hours of video that we semi-automatically labeled to generate around one million bounding boxes with identity annotations. By introducing this comprehensive benchmark, we aim to facilitate the development and evaluation of Re-ID algorithms that can reliably perform in challenging, long-term real-world scenarios.

arxiv情報

著者 Bessie Dominguez-Dager,Felix Escalona,Francisco Gomez-Donoso,Miguel Cazorla
発行日 2025-02-10 17:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | CHIRLA: Comprehensive High-resolution Identification and Re-identification for Large-scale Analysis はコメントを受け付けていません

Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene

要約

自動運転車は、自我中心の認識に依存して、感覚の制限に直面し、しばしば閉塞された遠くのオブジェクトを検出できません。
共同自律運転(CAV)は有望な方向のように思えますが、開発のためのデータの収集は自明ではありません。
同時に、複数のセンサー装備エージェントを現実世界の運転シーンに配置する必要があります!
そのため、既存のデータセットは場所やエージェントで制限されています。
救助に新しい代理を紹介します。これは、実際のサンプルである運転シーンのさまざまな視点から現実的な認識を生成することです。これは、エゴカーの感覚データです。
この代理には大きな可能性があります。キャブの開発を拡大するために、任意のエゴカーデータセットを共同運転の駆動に変える可能性があります。
シミュレートされた共同データと実際のエゴカーデータの組み合わせを使用して、最初のソリューションを提示します。
私たちの方法は、あなたの視点(typ)を転送し、出力サンプルが現実的であるだけでなく、特定のエゴカーデータを使用してセマンティクスとレイアウトの両方で一貫している条件付き拡散モデルを学習します。
経験的結果は、CAV設定での援助におけるTypの有効性を示しています。
特に、Typを使用すると、現実世界の共同データをほとんどまたはまったく使用して、早期および後期の融合などのコラボレーション認識アルゴリズムを(事前に)訓練することができ、下流のCAVアプリケーションを大幅に促進します。

要約(オリジナル)

Self-driving cars relying solely on ego-centric perception face limitations in sensing, often failing to detect occluded, faraway objects. Collaborative autonomous driving (CAV) seems like a promising direction, but collecting data for development is non-trivial. It requires placing multiple sensor-equipped agents in a real-world driving scene, simultaneously! As such, existing datasets are limited in locations and agents. We introduce a novel surrogate to the rescue, which is to generate realistic perception from different viewpoints in a driving scene, conditioned on a real-world sample – the ego-car’s sensory data. This surrogate has huge potential: it could potentially turn any ego-car dataset into a collaborative driving one to scale up the development of CAV. We present the very first solution, using a combination of simulated collaborative data and real ego-car data. Our method, Transfer Your Perspective (TYP), learns a conditioned diffusion model whose output samples are not only realistic but also consistent in both semantics and layouts with the given ego-car data. Empirical results demonstrate TYP’s effectiveness in aiding in a CAV setting. In particular, TYP enables us to (pre-)train collaborative perception algorithms like early and late fusion with little or no real-world collaborative data, greatly facilitating downstream CAV applications.

arxiv情報

著者 Tai-Yu Pan,Sooyoung Jeon,Mengdi Fan,Jinsu Yoo,Zhenyang Feng,Mark Campbell,Kilian Q. Weinberger,Bharath Hariharan,Wei-Lun Chao
発行日 2025-02-10 17:07:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene はコメントを受け付けていません

Optimal Visual Search with Highly Heuristic Decision Rules

要約

視覚検索は、人間や他の動物にとって基本的な自然な仕事です。
よく分離された潜在的なターゲット位置を持つ簡単に提示されたディスプレイを使用して、人間が秘密(単一固定)検索で使用する決定プロセスを調査しました。
パフォーマンスは、さまざまな潜在的なターゲット位置からの情報が統計的に独立しているという仮定の下で、ベイジアン最適な決定プロセスと比較されました。
驚くべきことに、人間は中心窩における感受性の大幅な喪失(中心窩の怠慢)と人間の脳が最適な計算を複製することの不可性能にもかかわらず、人間は最適よりもわずかに優れていました。
3つの要因が、これらの一見逆説的な結果を定量的に説明できることを示します。
最も重要なことは、シンプルで固定されたヒューリスティックな決定ルールは、最適な検索パフォーマンスに近いことです。
第二に、中心窩のネグレクトは主に中心的な潜在的なターゲット位置のみに影響します。
最後に、空間的に相関したニューラルノイズにより、独立したノイズを予測する検索性能を超えることができます。
これらの発見は、人間や他の動物の視覚検索タスクやその他の識別タスクを理解するために幅広い意味を持っています。

要約(オリジナル)

Visual search is a fundamental natural task for humans and other animals. We investigated the decision processes humans use in covert (single-fixation) search with briefly presented displays having well-separated potential target locations. Performance was compared with the Bayesian-optimal decision process under the assumption that the information from the different potential target locations is statistically independent. Surprisingly, humans performed slightly better than optimal, despite humans’ substantial loss of sensitivity in the fovea (foveal neglect), and the implausibility of the human brain replicating the optimal computations. We show that three factors can quantitatively explain these seemingly paradoxical results. Most importantly, simple and fixed heuristic decision rules reach near optimal search performance. Secondly, foveal neglect primarily affects only the central potential target location. Finally, spatially correlated neural noise can cause search performance to exceed that predicted for independent noise. These findings have broad implications for understanding visual search tasks and other identification tasks in humans and other animals.

arxiv情報

著者 Anqi Zhang,Wilson S. Geisler
発行日 2025-02-10 17:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC, stat.AP | Optimal Visual Search with Highly Heuristic Decision Rules はコメントを受け付けていません

MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval

要約

大規模なマルチモーダルコレクションから情報を効率的に取得して合成することが重要な課題になりました。
ただし、既存のビデオ検索データセットは範囲の制限に悩まされており、主に、記述的ではあるが曖昧なクエリと、専門的に編集された英語中心のビデオの小さなコレクションと焦点を当てています。
このギャップに対処するために、218,000を超えるニュースビデオと特定の世界イベントをターゲットにした3,906クエリのコレクションを備えた大規模で多言語イベント中心のビデオ検索ベンチマークである$ \ textbf {Multivent 2.0} $を紹介します。
これらのクエリは、視覚コンテンツ、オーディオ、埋め込みテキスト、ビデオのテキストメタデータに見られる情報を具体的にターゲットにしているため、これらのすべてのソースを活用してタスクで成功する必要があります。
予備的な結果は、最先端のビジョン言語モデルがこのタスクに大幅に格闘しており、代替アプローチは約束を示しているが、この問題に適切に対処するにはまだ不十分であることを示しています。
効果的なビデオ検索はマルチモーダルコンテンツの理解と生成に向けた重要なステップであるため、これらの調査結果は、より堅牢なマルチモーダル検索システムの必要性を強調しています。

要約(オリジナル)

Efficiently retrieving and synthesizing information from large-scale multimodal collections has become a critical challenge. However, existing video retrieval datasets suffer from scope limitations, primarily focusing on matching descriptive but vague queries with small collections of professionally edited, English-centric videos. To address this gap, we introduce $\textbf{MultiVENT 2.0}$, a large-scale, multilingual event-centric video retrieval benchmark featuring a collection of more than 218,000 news videos and 3,906 queries targeting specific world events. These queries specifically target information found in the visual content, audio, embedded text, and text metadata of the videos, requiring systems leverage all these sources to succeed at the task. Preliminary results show that state-of-the-art vision-language models struggle significantly with this task, and while alternative approaches show promise, they are still insufficient to adequately address this problem. These findings underscore the need for more robust multimodal retrieval systems, as effective video retrieval is a crucial step towards multimodal content understanding and generation.

arxiv情報

著者 Reno Kriz,Kate Sanders,David Etter,Kenton Murray,Cameron Carpenter,Kelly Van Ochten,Hannah Recknor,Jimena Guallar-Blasco,Alexander Martin,Ronald Colaianni,Nolan King,Eugene Yang,Benjamin Van Durme
発行日 2025-02-10 17:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval はコメントを受け付けていません

GHOST: Gaussian Hypothesis Open-Set Technique

要約

大規模な認識方法の評価は、通常、全体的なパフォーマンスに焦点を当てています。
このアプローチは一般的ですが、多くの場合、個々のクラス全体でパフォーマンスに関する洞察を提供できず、公平性の問題や不実表示につながる可能性があります。
これらのギャップに対処することは、メソッドが斬新なクラスまたは目に見えないクラスをどの程度うまく処理するかを正確に評価し、公正な評価を確保するために重要です。
オープンセット認識(OSR)の公平性に対処するために、クラスごとのパフォーマンスが劇的に異なる可能性があることを実証します。
斜めの共分散マトリックスを使用したクラスごとの多変量ガウス分布を使用して、深い特徴をモデル化する新しいハイパーパラメーターフリーフリーアルゴリズムであるGaussian仮説オープンセットテクニック(Ghost)を紹介します。
Zスコアの正規化をロジットに適用して、モデルの期待から逸脱する機能の大きさの影響を軽減し、それによりネットワークがハイスコアを未知のサンプルに割り当てる可能性を減らします。
複数のImagENET-1Kの事前に訓練されたディープネットワークでゴーストを評価し、4つの異なる未知のデータセットでテストします。
AUOSCR、AUROC、FPR95などの標準的なメトリックを使用して、統計的に有意な改善を実現し、大規模なOSRの最先端を前進させます。
ソースコードはオンラインで提供されます。

要約(オリジナル)

Evaluations of large-scale recognition methods typically focus on overall performance. While this approach is common, it often fails to provide insights into performance across individual classes, which can lead to fairness issues and misrepresentation. Addressing these gaps is crucial for accurately assessing how well methods handle novel or unseen classes and ensuring a fair evaluation. To address fairness in Open-Set Recognition (OSR), we demonstrate that per-class performance can vary dramatically. We introduce Gaussian Hypothesis Open Set Technique (GHOST), a novel hyperparameter-free algorithm that models deep features using class-wise multivariate Gaussian distributions with diagonal covariance matrices. We apply Z-score normalization to logits to mitigate the impact of feature magnitudes that deviate from the model’s expectations, thereby reducing the likelihood of the network assigning a high score to an unknown sample. We evaluate GHOST across multiple ImageNet-1K pre-trained deep networks and test it with four different unknown datasets. Using standard metrics such as AUOSCR, AUROC and FPR95, we achieve statistically significant improvements, advancing the state-of-the-art in large-scale OSR. Source code is provided online.

arxiv情報

著者 Ryan Rabinowitz,Steve Cruz,Manuel Günther,Terrance E. Boult
発行日 2025-02-10 17:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | GHOST: Gaussian Hypothesis Open-Set Technique はコメントを受け付けていません