cs.CV」カテゴリーアーカイブ

Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision

要約 ロボットビジョンは、マルチモーダル融合技術と視覚言語モデル(VLM)の進歩 … 続きを読む

カテゴリー: cs.CV, cs.RO | Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision はコメントを受け付けていません

ArtFormer: Controllable Generation of Diverse 3D Articulated Objects

要約 本稿では、3D多関節オブジェクトのモデリングと条件生成のための新しいフレー … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | ArtFormer: Controllable Generation of Diverse 3D Articulated Objects はコメントを受け付けていません

SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models

要約 運動と空間に関する推論は、複数の実世界アプリケーションで必要とされる基本的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.RO | SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models はコメントを受け付けていません

DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

要約 近年の画像ベースのヒューマンアニメーション手法は、リアルな身体や顔の動き合 … 続きを読む

カテゴリー: cs.AI, cs.CV | DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance はコメントを受け付けていません

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

要約 ILLUME+は、二重の視覚的トークン化と拡散デコーダを活用し、深い意味理 … 続きを読む

カテゴリー: cs.CV | ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement はコメントを受け付けていません

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

要約 疎なビューから3Dシーンを復元することは、その本質的な非正規問題のために困 … 続きを読む

カテゴリー: cs.CV | VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step はコメントを受け付けていません

GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance

要約 大規模かつ高い時空間分解能での正確な地上バイオマス(AGB)マッピングは、 … 続きを読む

カテゴリー: cs.CV | GSR4B: Biomass Map Super-Resolution with Sentinel-1/2 Guidance はコメントを受け付けていません

Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks

要約 教師なし領域適応(UDA)フレームワークは、クリーンデータ上の3次元点群セ … 続きを読む

カテゴリー: cs.CV | Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks はコメントを受け付けていません

Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約 鳥瞰(BEV)知覚は、複数の視点画像を融合するための統一的な表現を提供し、 … 続きを読む

カテゴリー: cs.CV | Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting はコメントを受け付けていません

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

要約 セグメンテーション、深さ、エッジなどのさまざまなモダリティの複数の空間制御 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control はコメントを受け付けていません