-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年3月
Embodied Understanding of Driving Scenarios
要約 身体化されたシーンの理解は、自律エージェントがオープンな運転シナリオを認識 … 続きを読む
カテゴリー: cs.CV
Embodied Understanding of Driving Scenarios はコメントを受け付けていません
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures
要約 トランスフォーマーはコンピューター ビジョンと自然言語処理に革命をもたらし … 続きを読む
カテゴリー: cs.CV
Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures はコメントを受け付けていません
A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images
要約 現在、医療画像ドメインの翻訳業務は、研究者や臨床医からの高い需要を示してい … 続きを読む
High-Level Parallelism and Nested Features for Dynamic Inference Cost and Top-Down Attention
要約 このペーパーでは、動的な推論コストとトップダウンのアテンション メカニズム … 続きを読む
カテゴリー: cs.CV
High-Level Parallelism and Nested Features for Dynamic Inference Cost and Top-Down Attention はコメントを受け付けていません
MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder
要約 医療分析の分野では、マスクされたオートエンコーダー (MAE) とマルチモ … 続きを読む
Pix2Gif: Motion-Guided Diffusion for GIF Generation
要約 私たちは、画像から GIF (ビデオ) への生成のためのモーションガイド付 … 続きを読む
CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios
要約 このペーパーでは、豊富で複雑な動的なオーディオビジュアル コンポーネントで … 続きを読む
カテゴリー: cs.CV
CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios はコメントを受け付けていません
Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views
要約 この論文では、まばらな多視点画像から 3D シーンとオブジェクトを再構成す … 続きを読む
カテゴリー: cs.CV
Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views はコメントを受け付けていません
Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention
要約 顔と声が互いに密接に関連しているため、視聴覚融合を使用した個人または身元確 … 続きを読む