「cs.CV」カテゴリーアーカイブ

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

投稿日: 2024年10月10日作成者: jarxiv

要約長いテキストを理解することは実際には大きな要求ですが、ほとんどの言語画像事 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality

投稿日: 2024年10月10日作成者: jarxiv

要約 Fr\’echet Video Distance (FVD) … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense

投稿日: 2024年10月10日作成者: jarxiv

要約モデル反転 (MI) 攻撃は、ターゲットモデルの出力情報を利用してプライ … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

投稿日: 2024年10月10日作成者: jarxiv

要約最近の 3D ノベルビュー合成 (NVS) 手法は、単一オブジェクト中心 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models

投稿日: 2024年10月10日作成者: jarxiv

要約視覚言語モデル (VLM) は、視覚タスクにおいて優れたパフォーマンスを示 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Control-oriented Clustering of Visual Latent Representation

投稿日: 2024年10月10日作成者: jarxiv

要約私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおけ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

KISS-Matcher: Fast and Robust Point Cloud Registration Revisited

投稿日: 2024年10月8日作成者: jarxiv

要約グローバル点群登録システムはあらゆる面で大幅に進歩しましたが、多くの研究は … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering

投稿日: 2024年10月8日作成者: jarxiv

要約地上ロボットの軌道データセット用の新しいビューレンダリングアルゴリズム … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting

投稿日: 2024年10月8日作成者: jarxiv

要約 3D ガウススプラッティング (3DGS) を使用したロボットマニピュ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting

投稿日: 2024年10月8日作成者: jarxiv

要約 Sim2Real の転送、特に RGB 画像に依存する操作ポリシーの場合、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality

MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense

3D-free meets 3D priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models

Control-oriented Clustering of Visual Latent Representation

KISS-Matcher: Fast and Robust Point Cloud Registration Revisited

Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting

SplatSim: Zero-Shot Sim2Real Transfer of RGB Manipulation Policies Using Gaussian Splatting

最近の投稿

最近のコメント

アーカイブ

カテゴリー