-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
EEG-Driven 3D Object Reconstruction with Color Consistency and Diffusion Prior
要約 EEG に基づく視覚認識の再構築は、現在の研究の注目の的となっています。 … 続きを読む
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?
要約 Large Vision-Language Model (LVLM) は、 … 続きを読む
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction
要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む
Aligning Text-to-Image Diffusion Models with Reward Backpropagation
要約 テキストから画像への拡散モデルは、非常に大規模な教師なしまたは弱く教師付き … 続きを読む
WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction
要約 3D セマンティック占有予測は自動運転に不可欠な部分であり、シーンの幾何学 … 続きを読む
RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar
要約 3D 占有ベースの認識パイプラインは、詳細なシーンの説明をキャプチャし、さ … 続きを読む
Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera
要約 この論文では、「Guided Harmony」音楽ゲーム内にロボット カメ … 続きを読む
BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment
要約 自動運転と移動ロボット工学の分野では、Bird’s Eye V … 続きを読む
CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning
要約 トランスフォーマーや CLIP などのビジョン言語モデル (VLM) の出 … 続きを読む
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks
要約 ビジョン言語モデル (VLM) は、その優れたマルチモーダル機能にもかかわ … 続きを読む