-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Localizing Memorization in SSL Vision Encoders
要約 自己教師あり学習 (SSL) における記憶に関する研究に関する最近の研究で … 続きを読む
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
要約 既存のスパースビュー再構成モデルは、正確な既知のカメラのポーズに大きく … 続きを読む
カテゴリー: cs.CV
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction はコメントを受け付けていません
Neptune: The Long Orbit to Benchmarking Long Video Understanding
要約 このペーパーでは、長いビデオを理解するための難しい質問、回答、おとりのセッ … 続きを読む
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation
要約 現代の MLLM を開発するための標準的な手法は、ビジョン エンコーダから … 続きを読む
カテゴリー: cs.CV
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation はコメントを受け付けていません
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
要約 シーン内のどこを見ているのかを予測することを目的とした視線ターゲット推定の … 続きを読む
カテゴリー: cs.CV
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders はコメントを受け付けていません
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion
要約 単一の画像からオブジェクトのジオメトリとマテリアルを復元することは、制約が … 続きを読む
カテゴリー: cs.CV
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion はコメントを受け付けていません
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
要約 人間の認知と同様に、長期間にわたって環境と対話できる AI システムを作成 … 続きを読む
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living
要約 Web ビデオでトレーニングされた現在の大規模言語視覚モデル (LLVM) … 続きを読む
LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors
要約 単一画像の 3D 再構成は、固有の幾何学的な曖昧さと限られた視点情報により … 続きを読む
RatBodyFormer: Rodent Body Surface from Keypoints
要約 ラットの行動モデリングは多くの科学研究の中心となっているが、テクスチャーの … 続きを読む
カテゴリー: cs.CV
RatBodyFormer: Rodent Body Surface from Keypoints はコメントを受け付けていません