「cs.CV」カテゴリーアーカイブ

GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

投稿日: 2025年1月24日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMMS）の最近の進歩は、視覚的理解と対話の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization

投稿日: 2025年1月24日作成者: jarxiv

要約テスト時間適応（TTA）は、トレーニングとテストデータの間の分布シフトに対 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step

投稿日: 2025年1月24日作成者: jarxiv

要約思考連鎖 (CoT) 推論は、複雑な理解タスクに取り組むために、大規模なモ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation

投稿日: 2025年1月24日作成者: jarxiv

要約大規模言語モデル (LLM) は、自然言語処理タスクにおいて大きな可能性を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

投稿日: 2025年1月24日作成者: jarxiv

要約マルチビュー3D再構成は、特に多様な視点で正確でスケーラブルな表現を必要と … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | コメントを受け付けていません

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

投稿日: 2025年1月24日作成者: jarxiv

要約この論文では、画像とビデオを理解するためのより高度なマルチモーダル基盤モデ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Accelerate High-Quality Diffusion Models with Inner Loop Feedback

投稿日: 2025年1月24日作成者: jarxiv

要約拡散モデルの推論を加速するための新しいアプローチであるインナーループフィー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CHaRNet: Conditioned Heatmap Regression for Robust Dental Landmark Localization

投稿日: 2025年1月24日作成者: jarxiv

要約 3D歯科モデルでの解剖学的ランドマークを特定することは、歯科矯正治療に不可 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning

投稿日: 2025年1月24日作成者: jarxiv

要約空間的推論は、具体化されたAI研究において重要な問題です。補足的な空間デ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Boosting Diffusion Guidance via Learning Degradation-Aware Models for Blind Super Resolution

投稿日: 2025年1月24日作成者: jarxiv

要約最近、拡散ベースのブラインドスーパー解像度（SR）メソッドは、豊富な高周波 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Towards Robust Multimodal Open-set Test-time Adaptation via Adaptive Entropy-aware Optimization

Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step

CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation

Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Accelerate High-Quality Diffusion Models with Inner Loop Feedback

CHaRNet: Conditioned Heatmap Regression for Robust Dental Landmark Localization

SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning

Boosting Diffusion Guidance via Learning Degradation-Aware Models for Blind Super Resolution

最近の投稿

最近のコメント

アーカイブ

カテゴリー