「cs.CV」カテゴリーアーカイブ

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

投稿日: 2024年12月17日作成者: jarxiv

要約この研究では、豊富なラベルのない本当の顔を使って、一般化パフォーマンスに関 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

投稿日: 2024年12月17日作成者: jarxiv

要約オープンボキャブラリーのパノプティックセグメンテーションは、境界のないボキ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A LoRA is Worth a Thousand Pictures

投稿日: 2024年12月17日作成者: jarxiv

要約拡散モデルとパラメータ効率の良い微調整 (PEFT) の最近の進歩により、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation

投稿日: 2024年12月17日作成者: jarxiv

要約ドメイン一般化セマンティックセグメンテーション (DGSS) は、ソース … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SPADE: Spectroscopic Photoacoustic Denoising using an Analytical and Data-free Enhancement Framework

投稿日: 2024年12月17日作成者: jarxiv

要約分光光音響 (sPA) イメージングでは、複数の波長を使用して、発色団をそ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

投稿日: 2024年12月17日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の既存のビデオ理解ベンチマー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology

投稿日: 2024年12月17日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) の出現により、病理学に大きな進歩 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniLoc: Towards Universal Place Recognition Using Any Single Modality

投稿日: 2024年12月17日作成者: jarxiv

要約現在までのところ、ほとんどの場所認識方法は単一モダリティの検索に焦点を当て … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

投稿日: 2024年12月17日作成者: jarxiv

要約画像から幾何学的情報や材質情報を取得することは、コンピュータービジョンと … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Probing the Mid-level Vision Capabilities of Self-Supervised Learning

投稿日: 2024年12月17日作成者: jarxiv

要約一般的なオブジェクトの位置特定や 3D 幾何学的な理解などの中レベルの視覚 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

FSFM: A Generalizable Face Security Foundation Model via Self-Supervised Facial Representation Learning

EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

A LoRA is Worth a Thousand Pictures

Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation

SPADE: Spectroscopic Photoacoustic Denoising using an Analytical and Data-free Enhancement Framework

CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology

UniLoc: Towards Universal Place Recognition Using Any Single Modality

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Probing the Mid-level Vision Capabilities of Self-Supervised Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー