-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Image Matching Filtering and Refinement by Planes and Beyond
要約 この論文では、画像マッチングにおける疎な対応をフィルタリングおよび洗練する … 続きを読む
カテゴリー: cs.CV
Image Matching Filtering and Refinement by Planes and Beyond はコメントを受け付けていません
UniHOI: Learning Fast, Dense and Generalizable 4D Reconstruction for Egocentric Hand Object Interaction Videos
要約 Egocentric Hand Object Interaction (H … 続きを読む
SINETRA: a Versatile Framework for Evaluating Single Neuron Tracking in Behaving Animals
要約 行動する動物のニューロン活動を正確に追跡することは、複雑な動きと背景ノイズ … 続きを読む
カテゴリー: cs.CV
SINETRA: a Versatile Framework for Evaluating Single Neuron Tracking in Behaving Animals はコメントを受け付けていません
Automated Segmentation of Ischemic Stroke Lesions in Non-Contrast Computed Tomography Images for Enhanced Treatment and Prognosis
要約 脳卒中は世界で 2 番目に多い死因であり、低・中所得国 (LMIC) でま … 続きを読む
I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling
要約 近年、トランスフォーマーコンポーネントで構成される深層学習モデルにより、医 … 続きを読む
Multimodal Object Detection using Depth and Image Data for Manufacturing Parts
要約 製造業では、さまざまな種類の製造部品やコンポーネントを正確にピッキングして … 続きを読む
UniHOI: Learning Fast, Dense and Generalizable 4D Reconstruction for Egocentric Hand Object Interaction Videos
要約 Egocentric Hand Object Interaction (H … 続きを読む
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation
要約 ビデオ生成モデルの学習に大規模ビデオ データを利用する最近の進歩は、複雑な … 続きを読む
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation
要約 視覚-言語-動作 (VLA) モデルは、エンドツーエンドの学習プロセスを通 … 続きを読む
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey
要約 マルチモーダル基礎モデルの急速な進化により、テキスト、画像、オーディオ、ビ … 続きを読む