cs.CV」カテゴリーアーカイブ

MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

要約 Multimodal Document検索は、広範なドキュメントからの図、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents はコメントを受け付けていません

Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models

要約 ビデオ大規模な言語モデル(Videollm)はビデオ理解に優れていますが、 … 続きを読む

カテゴリー: cs.CV | Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models はコメントを受け付けていません

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

要約 DeepSeek-R1は、強化学習を通じて、大きな言語モデル(LLMS)の … 続きを読む

カテゴリー: cs.CV | VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank はコメントを受け付けていません

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

要約 ビジョン言語モデル(VLM)が日常生活にますます統合されるようになるにつれ … 続きを読む

カテゴリー: cs.CL, cs.CV | RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding はコメントを受け付けていません

Enhancing Interpretability of Sparse Latent Representations with Class Information

要約 変分自動エンコーダー(VAE)は、潜在的な表現を学習するための強力な生成モ … 続きを読む

カテゴリー: cs.CV, cs.LG | Enhancing Interpretability of Sparse Latent Representations with Class Information はコメントを受け付けていません

SG-Reg: Generalizable and Efficient Scene Graph Registration

要約 このペーパーでは、2つの厳格なセマンティックシーングラフを登録するという課 … 続きを読む

カテゴリー: cs.CV, cs.RO | SG-Reg: Generalizable and Efficient Scene Graph Registration はコメントを受け付けていません

Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark

要約 話し言葉から派生したテキスト(EMO3D)から感情的に動的に3Dフェイシャ … 続きを読む

カテゴリー: cs.AI, cs.CV | Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark はコメントを受け付けていません

RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training

要約 人工知能(AI)と放射線学の統合は、医学の変革的時代を示しています。 Vi … 続きを読む

カテゴリー: cs.AI, cs.CV | RadCLIP: Enhancing Radiologic Image Analysis through Contrastive Language-Image Pre-training はコメントを受け付けていません

Technical Report: Quantifying and Analyzing the Generalization Power of a DNN

要約 このペーパーでは、ディープニューラルネットワーク(DNNS)の一般化力を分 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Technical Report: Quantifying and Analyzing the Generalization Power of a DNN はコメントを受け付けていません

Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction

要約 2型糖尿病の管理には効果的な食事監視が重要ですが、カロリー摂取量を正確に推 … 続きを読む

カテゴリー: cs.CV, cs.LG | Multimodal Fusion of Glucose Monitoring and Food Imagery for Caloric Content Prediction はコメントを受け付けていません