-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Stereo Hand-Object Reconstruction for Human-to-Robot Handover
要約 手と物体の形状を共同推定することで、人間からロボットへの引き継ぎにおいてロ … 続きを読む
CMRNext: Camera to LiDAR Matching in the Wild for Localization and Extrinsic Calibration
要約 LiDAR は、動的環境でのマッピングと位置特定に広く使用されています。 … 続きを読む
DeCLIP: Decoding CLIP representations for deepfake localization
要約 生成モデルはまったく新しい画像を作成できますが、人間の目には検出できない方 … 続きを読む
Unsupervised Learning of Unbiased Visual Representations
要約 深いニューラルネットワークは、データセットバイアスの存在下で堅牢な表現を学 … 続きを読む
Enhancing Vision-Language Model Pre-training with Image-text Pair Pruning Based on Word Frequency
要約 我々は、VLM の効率を向上させる新しいデータ プルーニング手法である単語 … 続きを読む
Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types
要約 視覚的な質問応答 (VQA) は、特に視覚言語モデル (VLM) の一般化 … 続きを読む
BudgetFusion: Perceptually-Guided Adaptive Diffusion Models
要約 拡散モデルは、テキストから画像への生成というタスクにおいて前例のない成功を … 続きを読む
Mobile Video Diffusion
要約 ビデオ拡散モデルは、印象的なリアリズムと制御性を実現していますが、高い計算 … 続きを読む
Multimodal Contextualized Support for Enhancing Video Retrieval System
要約 現在のビデオ検索システム、特に競技で使用されるシステムは、クリップ全体やビ … 続きを読む
Faster and Better 3D Splatting via Group Training
要約 3D ガウス スプラッティング (3DGS) は、新しいビュー合成のための … 続きを読む
カテゴリー: cs.CV
Faster and Better 3D Splatting via Group Training はコメントを受け付けていません