投稿者「jarxiv」のアーカイブ

MECD+: Unlocking Event-Level Causal Graph Discovery for Video Reasoning

要約 ビデオ因果推論は、因果関係の観点からビデオを高度に理解することを目的として … 続きを読む

カテゴリー: cs.CV | MECD+: Unlocking Event-Level Causal Graph Discovery for Video Reasoning はコメントを受け付けていません

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning はコメントを受け付けていません

WMamba: Wavelet-based Mamba for Face Forgery Detection

要約 ディープフェイク生成技術の急速な進歩に伴い、堅牢かつ正確な顔偽造検出アルゴ … 続きを読む

カテゴリー: cs.CV | WMamba: Wavelet-based Mamba for Face Forgery Detection はコメントを受け付けていません

Improving Zero-Shot Object-Level Change Detection by Incorporating Visual Correspondence

要約 異なるビューにわたる 2 つの画像間のオブジェクトレベルの変化を検出するこ … 続きを読む

カテゴリー: cs.AI, cs.CV | Improving Zero-Shot Object-Level Change Detection by Incorporating Visual Correspondence はコメントを受け付けていません

A Comprehensive Survey of Foundation Models in Medicine

要約 基礎モデル (FM) は、多くの場合、自己教師あり学習手法を使用して、大規 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | A Comprehensive Survey of Foundation Models in Medicine はコメントを受け付けていません

Unified Face Matching and Physical-Digital Spoofing Attack Detection

要約 顔認識テクノロジーは、セキュリティ、監視、認証システムの状況を劇的に変革し … 続きを読む

カテゴリー: cs.CV | Unified Face Matching and Physical-Digital Spoofing Attack Detection はコメントを受け付けていません

A Comparative Study on Multi-task Uncertainty Quantification in Semantic Segmentation and Monocular Depth Estimation

要約 ディープ ニューラル ネットワークは、セマンティック セグメンテーションや … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | A Comparative Study on Multi-task Uncertainty Quantification in Semantic Segmentation and Monocular Depth Estimation はコメントを受け付けていません

VIS-MAE: An Efficient Self-supervised Learning Approach on Medical Image Segmentation and Classification

要約 人工知能 (AI) は、医療画像における診断とセグメンテーションに革命をも … 続きを読む

カテゴリー: cs.CV, eess.IV | VIS-MAE: An Efficient Self-supervised Learning Approach on Medical Image Segmentation and Classification はコメントを受け付けていません

Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark

要約 過去数年間における視覚言語モデル (VLM) の急増により、厳密かつ包括的 … 続きを読む

カテゴリー: cs.AI, cs.CV | Robin: a Suite of Multi-Scale Vision-Language Models and the CHIRP Evaluation Benchmark はコメントを受け付けていません

Super-class guided Transformer for Zero-Shot Attribute Classification

要約 属性分類は、画像領域内の特定の特徴を識別するために重要です。 ビジョン言語 … 続きを読む

カテゴリー: cs.CV | Super-class guided Transformer for Zero-Shot Attribute Classification はコメントを受け付けていません