cs.CV」カテゴリーアーカイブ

VideoStudio: Generating Consistent-Content and Multi-Scene Videos

要約 拡散モデルにおける最近の技術革新と画期的な進歩により、指定されたプロンプト … 続きを読む

カテゴリー: cs.CL, cs.CV | VideoStudio: Generating Consistent-Content and Multi-Scene Videos はコメントを受け付けていません

CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera

要約 カメラとロボットのキャリブレーションは、ビジョンベースのロボット制御にとっ … 続きを読む

カテゴリー: cs.CV, cs.RO | CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera はコメントを受け付けていません

Deep-Wide Learning Assistance for Insect Pest Classification

要約 害虫を正確に認識することは、農業において重要な役割を果たします。 昆虫の複 … 続きを読む

カテゴリー: cs.CV | Deep-Wide Learning Assistance for Insect Pest Classification はコメントを受け付けていません

PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture

要約 近年、Transformer アーキテクチャに基づく点群解析手法は、特に … 続きを読む

カテゴリー: cs.CV | PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture はコメントを受け付けていません

PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification

要約 自己教師あり学習の進歩は、点群処理における特徴抽出と理解を強化するために不 … 続きを読む

カテゴリー: cs.CV | PMT-MAE: Dual-Branch Self-Supervised Learning with Distillation for Efficient Point Cloud Classification はコメントを受け付けていません

MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion

要約 自己教師あり学習は、骨格に基づいた人間の行動の理解に効果的であることが証明 … 続きを読む

カテゴリー: cs.AI, cs.CV | MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion はコメントを受け付けていません

SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing

要約 拡散モデルは、テキスト ガイダンスによる優れた画像生成パフォーマンスを示し … 続きを読む

カテゴリー: cs.CV | SimInversion: A Simple Framework for Inversion-Based Text-to-Image Editing はコメントを受け付けていません

Exploring 3D Face Reconstruction and Fusion Methods for Face Verification: A Case-Study in Video Surveillance

要約 3D 顔再構成 (3DFR) アルゴリズムは、個別のアプリケーション シナ … 続きを読む

カテゴリー: cs.AI, cs.CV | Exploring 3D Face Reconstruction and Fusion Methods for Face Verification: A Case-Study in Video Surveillance はコメントを受け付けていません

Do Pre-trained Vision-Language Models Encode Object States?

要約 視覚言語モデル (VLM) が原因と結果などの物理世界を理解するための最初 … 続きを読む

カテゴリー: cs.AI, cs.CV | Do Pre-trained Vision-Language Models Encode Object States? はコメントを受け付けていません

MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation

要約 自然言語処理ではトランスフォーマーが好まれていますが、一部の研究は近年医療 … 続きを読む

カテゴリー: cs.CV, eess.IV | MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation はコメントを受け付けていません