月別アーカイブ: 2024年8月

Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency

要約 ビデオ インスタンス セグメンテーション (VIS) 手法のパフォーマンス … 続きを読む

カテゴリー: cs.CV | Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency はコメントを受け付けていません

Space3D-Bench: Spatial 3D Question Answering Benchmark

要約 環境の空間特性に関する質問に答えることは、特にオブジェクト間の関係の点で … 続きを読む

カテゴリー: cs.CV | Space3D-Bench: Spatial 3D Question Answering Benchmark はコメントを受け付けていません

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

要約 Open-X-Embodiment のような大規模な取り組みや広範なコミュ … 続きを読む

カテゴリー: cs.CV, cs.RO | Manipulate-Anything: Automating Real-World Robots using Vision-Language Models はコメントを受け付けていません

PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification

要約 オブジェクトの再識別では、重複しないカメラ間でオブジェクトを正確に識別する … 続きを読む

カテゴリー: cs.CV | PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification はコメントを受け付けていません

Generic Objects as Pose Probes for Few-Shot View Synthesis

要約 NeRF や 3D ガウシアンを含むラディアンス フィールドは、高忠実度の … 続きを読む

カテゴリー: cs.CV | Generic Objects as Pose Probes for Few-Shot View Synthesis はコメントを受け付けていません

GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models

要約 Text-to-Image (T2I) 生成モデルの最近の進歩により、高品 … 続きを読む

カテゴリー: cs.CV | GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models はコメントを受け付けていません

One-Shot Learning Meets Depth Diffusion in Multi-Object Videos

要約 さまざまな芸術的スタイルで複数のオブジェクト間の複雑な相互作用を描写する編 … 続きを読む

カテゴリー: cs.CV | One-Shot Learning Meets Depth Diffusion in Multi-Object Videos はコメントを受け付けていません

H-SGANet: Hybrid Sparse Graph Attention Network for Deformable Medical Image Registration

要約 畳み込みニューラル ネットワーク (ConvNet) と Transfor … 続きを読む

カテゴリー: cs.CV | H-SGANet: Hybrid Sparse Graph Attention Network for Deformable Medical Image Registration はコメントを受け付けていません

OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

要約 マスク イメージ モデリング (MIM) は、リモート センシング (RS … 続きを読む

カテゴリー: cs.CV | OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset はコメントを受け付けていません

Prediction-Feedback DETR for Temporal Action Detection

要約 時間的動作検出 (TAD) は基本的なものですが、現実世界のビデオ アプリ … 続きを読む

カテゴリー: cs.CV | Prediction-Feedback DETR for Temporal Action Detection はコメントを受け付けていません