「cs.CV」カテゴリーアーカイブ

Towards Physically-Based Sky-Modeling

投稿日: 2024年12月17日作成者: jarxiv

要約正確な環境マップは、コヒーレントな照明を使用してフォトリアリスティックな屋 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation

投稿日: 2024年12月17日作成者: jarxiv

要約高品質のセマンティックセグメンテーションは、グローバルコンテキストモ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach

投稿日: 2024年12月17日作成者: jarxiv

要約この論文では、2D CAD 図面から 3D パラメトリックモデルを再構成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Exploring Vacant Classes in Label-Skewed Federated Learning

投稿日: 2024年12月17日作成者: jarxiv

要約ラベルスキューは、クライアント間でのローカルラベル分布の不均衡によって … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

投稿日: 2024年12月17日作成者: jarxiv

要約画像とキャプションのペアでユーモアや皮肉を伝えるマルチモーダルなオチは、オ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Does VLM Classification Benefit from LLM Description Semantics?

投稿日: 2024年12月17日作成者: jarxiv

要約画像をテキストで正確に説明することは、説明可能な AI の基礎です。 CL … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

IRR: Image Review Ranking Framework for Evaluating Vision-Language Models

投稿日: 2024年12月17日作成者: jarxiv

要約大規模ビジョン言語モデル (LVLM) は、画像とテキストの両方を処理し、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Are the Latent Representations of Foundation Models for Pathology Invariant to Rotation?

投稿日: 2024年12月17日作成者: jarxiv

要約デジタルパソロジー用の自己教師あり基礎モデルは、H\&E スライ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Coconut Palm Tree Counting on Drone Images with Deep Object Detection and Synthetic Training Data

投稿日: 2024年12月17日作成者: jarxiv

要約ドローンは農業を含むさまざまな領域に革命をもたらしました。深層学習の最近 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning

投稿日: 2024年12月17日作成者: jarxiv

要約画像の美的評価 (IAA) は、画像の美的価値を分析および評価し、そのハイ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Towards Physically-Based Sky-Modeling

SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation

From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach

Exploring Vacant Classes in Label-Skewed Federated Learning

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension

Does VLM Classification Benefit from LLM Description Semantics?

IRR: Image Review Ranking Framework for Evaluating Vision-Language Models

Are the Latent Representations of Foundation Models for Pathology Invariant to Rotation?

Coconut Palm Tree Counting on Drone Images with Deep Object Detection and Synthetic Training Data

Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー