月別アーカイブ: 2025年2月

SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest

要約 機械学習アルゴリズムにより、高品質のステレオ深度推定は、拡張および仮想現実 … 続きを読む

カテゴリー: cs.AR, cs.CV | SteROI-D: System Design and Mapping for Stereo Depth Inference on Regions of Interest はコメントを受け付けていません

Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model

要約 条件付き拡散モデルの最近の進歩により、現実的なトーキングフェイスビデオを生 … 続きを読む

カテゴリー: cs.CV | Long-Term TalkingFace Generation via Motion-Prior Conditional Diffusion Model はコメントを受け付けていません

Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community

要約 オブジェクトの検出、特にオープンボキャブラリーオブジェクトの検出は、環境監 … 続きを読む

カテゴリー: cs.CV | Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community はコメントを受け付けていません

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

要約 具体化されたエージェントを作成するためにマルチモーダルの大手言語モデル(M … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents はコメントを受け付けていません

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

要約 この作品は、画像とビデオの両方を密集した理解のための最初の統一モデルである … 続きを読む

カテゴリー: cs.CV | Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません

Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction

要約 このペーパーでは、カメラパラメーター、レンズの歪み、3Dガウス表現を共同で … 続きを読む

カテゴリー: cs.CV, cs.GR | Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction はコメントを受け付けていません

Diffusing DeBias: a Recipe for Turning a Bug into a Feature

要約 分類タスクにおける深い学習モデルの有効性は、特定の属性とターゲットラベルの … 続きを読む

カテゴリー: cs.CV, cs.LG, I.4 | Diffusing DeBias: a Recipe for Turning a Bug into a Feature はコメントを受け付けていません

Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery

要約 Vision Transformers(VIT)は最近、コンピュータービジ … 続きを読む

カテゴリー: cs.AI, cs.CV | Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery はコメントを受け付けていません

Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering

要約 この調査では、ビデオ品質の7つの重要なカテゴリにわたってゼロショット分類の … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Optimizing GPT for Video Understanding: Zero-Shot Performance and Prompt Engineering はコメントを受け付けていません

GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis

要約 地球軌道衛星の連続動作は、リモートセンシング(RS)画像の広大で成長し続け … 続きを読む

カテゴリー: cs.CV | GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis はコメントを受け付けていません