-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
VITA: Towards Open-Source Interactive Omni Multimodal LLM
要約 GPT-4o の優れたマルチモーダル機能とインタラクティブなエクスペリエン … 続きを読む
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models
要約 高性能マルチモーダル大規模言語モデル (MLLM) は、データ品質に大きく … 続きを読む
GMISeg: General Medical Image Segmentation without Re-Training
要約 オンライン ショッピングの行動には、豊富な粒度の次元とデータの疎性という特 … 続きを読む
MS-Twins: Multi-Scale Deep Self-Attention Networks for Medical Image Segmentation
要約 胸部 X 線検査は、胸部疾患を診断するための最も一般的な放射線検査の 1 … 続きを読む
SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World
要約 高密度の報酬を伴う強化学習 (RL) と人間が生成した軌道を伴う模倣学習 … 続きを読む
Grasping Trajectory Optimization with Point Clouds
要約 ロボットと作業空間の点群表現に基づいたロボットによる把持のための新しい軌道 … 続きを読む
Edit As You Wish: Video Caption Editing with Multi-grained User Control
要約 ユーザーのリクエストに応じて自然言語でビデオを自動的にナレーションすること … 続きを読む
Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs
要約 大規模言語モデル (LLM) と大規模マルチモーダル モデル (LMM) … 続きを読む
HARMamba: Efficient and Lightweight Wearable Sensor Human Activity Recognition Based on Bidirectional Mamba
要約 ウェアラブル センサー ベースの人間活動認識 (HAR) は、活動認識にお … 続きを読む
Fast and Accurate Object Detection on Asymmetrical Receptive Field
要約 物体検出は幅広い業界で使用されています。 たとえば、自動運転における物体検 … 続きを読む
カテゴリー: cs.CV
Fast and Accurate Object Detection on Asymmetrical Receptive Field はコメントを受け付けていません