「cs.CV」カテゴリーアーカイブ

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

投稿日: 2025年5月21日作成者: jarxiv

要約 Multimodal Document検索は、広範なドキュメントからの図、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | コメントを受け付けていません

Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models

投稿日: 2025年5月21日作成者: jarxiv

要約ビデオ大規模な言語モデル（Videollm）はビデオ理解に優れていますが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

投稿日: 2025年5月21日作成者: jarxiv

要約 DeepSeek-R1は、強化学習を通じて、大きな言語モデル（LLMS）の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

投稿日: 2025年5月21日作成者: jarxiv

要約ビジョン言語モデル（VLM）が日常生活にますます統合されるようになるにつれ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Enhancing Interpretability of Sparse Latent Representations with Class Information

投稿日: 2025年5月21日作成者: jarxiv

要約変分自動エンコーダー（VAE）は、潜在的な表現を学習するための強力な生成モ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

SG-Reg: Generalizable and Efficient Scene Graph Registration

投稿日: 2025年5月21日作成者: jarxiv

要約このペーパーでは、2つの厳格なセマンティックシーングラフを登録するという課 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark

投稿日: 2025年5月21日作成者: jarxiv

要約話し言葉から派生したテキスト（EMO3D）から感情的に動的に3Dフェイシャ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

投稿日: 2025年5月21日作成者: jarxiv

要約人工知能（AI）と放射線学の統合は、医学の変革的時代を示しています。 Vi … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Technical Report: Quantifying and Analyzing the Generalization Power of a DNN

投稿日: 2025年5月21日作成者: jarxiv

要約このペーパーでは、ディープニューラルネットワーク（DNNS）の一般化力を分 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction

投稿日: 2025年5月21日作成者: jarxiv

要約 2型糖尿病の管理には効果的な食事監視が重要ですが、カロリー摂取量を正確に推 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Enhancing Interpretability of Sparse Latent Representations with Class Information

SG-Reg: Generalizable and Efficient Scene Graph Registration

Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

Technical Report: Quantifying and Analyzing the Generalization Power of a DNN

Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction

最近の投稿

最近のコメント

アーカイブ

カテゴリー