cs.CV」カテゴリーアーカイブ

Real-Time Anomaly Detection in Video Streams

要約 この論文は、Othello 社と LIASD 研究室との間の CIFRE … 続きを読む

カテゴリー: cs.CV, cs.LG | Real-Time Anomaly Detection in Video Streams はコメントを受け付けていません

CLIPArTT: Adaptation of CLIP to New Domains at Test Time

要約 CLIP に代表される、事前トレーニング済みのビジョン言語モデル (VLM … 続きを読む

カテゴリー: cs.CV, cs.LG | CLIPArTT: Adaptation of CLIP to New Domains at Test Time はコメントを受け付けていません

A Multi-Loss Strategy for Vehicle Trajectory Prediction: Combining Off-Road, Diversity, and Directional Consistency Losses

要約 軌道予測は、自動運転車の計画の安全性と効率性にとって不可欠です。 しかし、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | A Multi-Loss Strategy for Vehicle Trajectory Prediction: Combining Off-Road, Diversity, and Directional Consistency Losses はコメントを受け付けていません

A Comprehensive Content Verification System for ensuring Digital Integrity in the Age of Deep Fakes

要約 デジタル コンテンツが広範に共有される時代において、堅牢なコンテンツの完全 … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.ET | A Comprehensive Content Verification System for ensuring Digital Integrity in the Age of Deep Fakes はコメントを受け付けていません

Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy

要約 ビデオ カプセル内視鏡は、消化管の詳細な画像を取得する非侵襲的な方法を提供 … 続きを読む

カテゴリー: cs.CV, cs.LG | Domain-Adaptive Pre-training of Self-Supervised Foundation Models for Medical Image Classification in Gastrointestinal Endoscopy はコメントを受け付けていません

DeSplat: Decomposed Gaussian Splatting for Distractor-Free Rendering

要約 ガウス スプラッティングにより、静的な 3D 環境での新しいビューの高速合 … 続きを読む

カテゴリー: cs.CV, cs.LG | DeSplat: Decomposed Gaussian Splatting for Distractor-Free Rendering はコメントを受け付けていません

Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models

要約 基礎モデルを微調整すると、分布の変化に対する堅牢性が損なわれることがよくあ … 続きを読む

カテゴリー: cs.CV, cs.LG | Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models はコメントを受け付けていません

LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References

要約 通常、二時点画像の比較に依存する変更検出は、単一の画像しか利用できない場合 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References はコメントを受け付けていません

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

要約 ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos はコメントを受け付けていません

PerLA: Perceptive 3D Language Assistant

要約 大規模言語モデル (LLM) で 3D 物理世界を理解できるようにすること … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | PerLA: Perceptive 3D Language Assistant はコメントを受け付けていません