cs.CV」カテゴリーアーカイブ

Agentic 3D Scene Generation with Spatially Contextualized VLMs

要約 ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生 … 続きを読む

カテゴリー: cs.CV, cs.GR | Agentic 3D Scene Generation with Spatially Contextualized VLMs はコメントを受け付けていません

FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

要約 大規模な言語モデル(LLMS)の急速な進歩は、単一のフレームワーク内で視覚 … 続きを読む

カテゴリー: cs.CV | FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities はコメントを受け付けていません

Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases

要約 このペーパーでは、少数のショット学習を使用して、OCT診断画像を主要かつ希 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases はコメントを受け付けていません

Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models

要約 大規模な自然なシーン画像で対比訓練された視覚エンコーダーの恩恵を受けて、大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models はコメントを受け付けていません

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

要約 近年、オーディオ駆動型の人間のアニメーションの大きな進歩が目撃されています … 続きを読む

カテゴリー: cs.CV | HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters はコメントを受け付けていません

STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs

要約 マルチモーダル大手言語モデル(MLLM)は、多様なタスク全体で顕著な能力を … 続きを読む

カテゴリー: cs.CV | STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs はコメントを受け付けていません

Long-Context State-Space Video World Models

要約 ビデオ拡散モデルは最近、アクションを条件とする自己回帰フレーム予測を通じて … 続きを読む

カテゴリー: cs.CV | Long-Context State-Space Video World Models はコメントを受け付けていません

AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition

要約 輝度が高い時間分解能で変化するイベントカメラは、本質的に重要なオブジェクト … 続きを読む

カテゴリー: cs.CV | AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition はコメントを受け付けていません

EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion

要約 医療画像の分類は臨床的意思決定には重要ですが、正確性、解釈可能性、一般化に … 続きを読む

カテゴリー: cs.AI, cs.CV | EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion はコメントを受け付けていません

PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology

要約 Pathology Foundationモデルの出現は、計算組織病理学に革 … 続きを読む

カテゴリー: cs.CV | PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology はコメントを受け付けていません