cs.CV」カテゴリーアーカイブ

Stereo Hand-Object Reconstruction for Human-to-Robot Handover

要約 手と物体の形状を共同推定することで、人間からロボットへの引き継ぎにおいてロ … 続きを読む

カテゴリー: cs.CV, cs.RO | Stereo Hand-Object Reconstruction for Human-to-Robot Handover はコメントを受け付けていません

CMRNext: Camera to LiDAR Matching in the Wild for Localization and Extrinsic Calibration

要約 LiDAR は、動的環境でのマッピングと位置特定に広く使用されています。 … 続きを読む

カテゴリー: cs.CV, cs.RO | CMRNext: Camera to LiDAR Matching in the Wild for Localization and Extrinsic Calibration はコメントを受け付けていません

DeCLIP: Decoding CLIP representations for deepfake localization

要約 生成モデルはまったく新しい画像を作成できますが、人間の目には検出できない方 … 続きを読む

カテゴリー: cs.CV, cs.LG | DeCLIP: Decoding CLIP representations for deepfake localization はコメントを受け付けていません

Unsupervised Learning of Unbiased Visual Representations

要約 深いニューラルネットワークは、データセットバイアスの存在下で堅牢な表現を学 … 続きを読む

カテゴリー: 68T07, cs.CV, cs.LG | Unsupervised Learning of Unbiased Visual Representations はコメントを受け付けていません

Enhancing Vision-Language Model Pre-training with Image-text Pair Pruning Based on Word Frequency

要約 我々は、VLM の効率を向上させる新しいデータ プルーニング手法である単語 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Enhancing Vision-Language Model Pre-training with Image-text Pair Pruning Based on Word Frequency はコメントを受け付けていません

Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types

要約 視覚的な質問応答 (VQA) は、特に視覚言語モデル (VLM) の一般化 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types はコメントを受け付けていません

BudgetFusion: Perceptually-Guided Adaptive Diffusion Models

要約 拡散モデルは、テキストから画像への生成というタスクにおいて前例のない成功を … 続きを読む

カテゴリー: cs.AI, cs.CV | BudgetFusion: Perceptually-Guided Adaptive Diffusion Models はコメントを受け付けていません

Mobile Video Diffusion

要約 ビデオ拡散モデルは、印象的なリアリズムと制御性を実現していますが、高い計算 … 続きを読む

カテゴリー: cs.AI, cs.CV | Mobile Video Diffusion はコメントを受け付けていません

Multimodal Contextualized Support for Enhancing Video Retrieval System

要約 現在のビデオ検索システム、特に競技で使用されるシステムは、クリップ全体やビ … 続きを読む

カテゴリー: cs.AI, cs.CV | Multimodal Contextualized Support for Enhancing Video Retrieval System はコメントを受け付けていません

Faster and Better 3D Splatting via Group Training

要約 3D ガウス スプラッティング (3DGS) は、新しいビュー合成のための … 続きを読む

カテゴリー: cs.CV | Faster and Better 3D Splatting via Group Training はコメントを受け付けていません