月別アーカイブ: 2024年8月

Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency

投稿日: 2024年8月30日作成者: jarxiv

要約ビデオインスタンスセグメンテーション (VIS) 手法のパフォーマンス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Space3D-Bench: Spatial 3D Question Answering Benchmark

投稿日: 2024年8月30日作成者: jarxiv

要約環境の空間特性に関する質問に答えることは、特にオブジェクト間の関係の点で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

投稿日: 2024年8月30日作成者: jarxiv

要約 Open-X-Embodiment のような大規模な取り組みや広範なコミュ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification

投稿日: 2024年8月30日作成者: jarxiv

要約オブジェクトの再識別では、重複しないカメラ間でオブジェクトを正確に識別する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generic Objects as Pose Probes for Few-Shot View Synthesis

投稿日: 2024年8月30日作成者: jarxiv

要約 NeRF や 3D ガウシアンを含むラディアンスフィールドは、高忠実度の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models

投稿日: 2024年8月30日作成者: jarxiv

要約 Text-to-Image (T2I) 生成モデルの最近の進歩により、高品 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

One-Shot Learning Meets Depth Diffusion in Multi-Object Videos

投稿日: 2024年8月30日作成者: jarxiv

要約さまざまな芸術的スタイルで複数のオブジェクト間の複雑な相互作用を描写する編 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

H-SGANet: Hybrid Sparse Graph Attention Network for Deformable Medical Image Registration

投稿日: 2024年8月30日作成者: jarxiv

要約畳み込みニューラルネットワーク (ConvNet) と Transfor … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

投稿日: 2024年8月30日作成者: jarxiv

要約マスクイメージモデリング (MIM) は、リモートセンシング (RS … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Prediction-Feedback DETR for Temporal Action Detection

投稿日: 2024年8月30日作成者: jarxiv

要約時間的動作検出 (TAD) は基本的なものですが、現実世界のビデオアプリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年8月

Eigen-Cluster VIS: Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency

Space3D-Bench: Spatial 3D Question Answering Benchmark

Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification

Generic Objects as Pose Probes for Few-Shot View Synthesis

GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models

One-Shot Learning Meets Depth Diffusion in Multi-Object Videos

H-SGANet: Hybrid Sparse Graph Attention Network for Deformable Medical Image Registration

OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

Prediction-Feedback DETR for Temporal Action Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー