-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Bio-inspired visual relative localization for large swarms of UAVs
要約 我々は、UAVの大規模群内のエージェントの相対的な定位のための視覚知覚の新 … 続きを読む
ScImage: How Good Are Multimodal Large Language Models at Scientific Text-to-Image Generation?
要約 マルチモーダル大規模言語モデル(LLM)は、テキスト指示から高品質な画像を … 続きを読む
BYE: Build Your Encoder with One Sequence of Exploration Data for Long-Term Dynamic Scene Understanding
要約 ロボットアプリケーションにおいて、動的なシーン理解は依然として根強い課題で … 続きを読む
OODFace: Benchmarking Robustness of Face Recognition under Common Corruptions and Appearance Variations
要約 ディープラーニングの台頭により、顔認識技術は広範な研究と急速な発展を遂げて … 続きを読む
Multi-Class Abnormality Classification Task in Video Capsule Endoscopy
要約 Capsule Vision Challenge 2024に向けた本研究で … 続きを読む
RelayGS: Reconstructing Dynamic Scenes with Large-Scale and Complex Motions via Relay Gaussians
要約 大規模で複雑な動きを伴うダイナミックなシーンの再構築は、依然として大きな課 … 続きを読む
カテゴリー: cs.CV
RelayGS: Reconstructing Dynamic Scenes with Large-Scale and Complex Motions via Relay Gaussians はコメントを受け付けていません
Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection
要約 現在の半教師付き物体検出(Semi-Supervised Object D … 続きを読む
カテゴリー: cs.CV
Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection はコメントを受け付けていません
ROVER: A Multi-Season Dataset for Visual SLAM
要約 ロバストなSLAM(Simultaneous Localization a … 続きを読む
Towards Rich Emotions in 3D Avatars: A Text-to-3D Avatar Generation Benchmark
要約 話し言葉に由来するテキストを用いた感情的でダイナミックな3D顔アバター(E … 続きを読む
Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
要約 マルチモーダル大規模言語モデル(MLLM)は、視覚理解、推論、インタラクシ … 続きを読む