-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing
要約 テキストガイドによる非剛体編集には、周囲の動きや構成を変更するなど、入力画 … 続きを読む
カテゴリー: cs.CV
Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing はコメントを受け付けていません
Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models
要約 大規模視覚言語モデル (LVLM) における視覚言語の調整により、LLM … 続きを読む
3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation
要約 テキストからイメージへの生成における制御可能な出力に対する需要の高まりによ … 続きを読む
カテゴリー: cs.CV
3DIS: Depth-Driven Decoupled Instance Synthesis for Text-to-Image Generation はコメントを受け付けていません
MambaBEV: An efficient 3D detection model with Mamba2
要約 時間情報を備えた BEV パラダイムに基づく安定した 3D 物体検出モデル … 続きを読む
カテゴリー: cs.CV
MambaBEV: An efficient 3D detection model with Mamba2 はコメントを受け付けていません
Understanding Figurative Meaning through Explainable Visual Entailment
要約 大規模視覚言語モデル (VLM) は、視覚的な質問応答や視覚的な含意など、 … 続きを読む
Automatic Mapping of Anatomical Landmarks from Free-Text Using Large Language Models: Insights from Llama-2
要約 解剖学的ランドマークは、ナビゲーションや異常検出のための医療画像処理におい … 続きを読む
Machine Learning Approach to Brain Tumor Detection and Classification
要約 脳腫瘍の検出と分類は、医用画像解析、特に早期診断において重要なタスクであり … 続きを読む
AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines
要約 製造パイプラインにおける異常検出は依然として重要な課題であり、産業環境の複 … 続きを読む
カテゴリー: cs.CV
AssemAI: Interpretable Image-Based Anomaly Detection for Manufacturing Pipelines はコメントを受け付けていません
VividMed: Vision Language Model with Versatile Visual Grounding for Medicine
要約 ビジョン言語モデル (VLM) の最近の進歩により、視覚に基づいた応答を生 … 続きを読む
MultiCamCows2024 — A Multi-view Image Dataset for AI-driven Holstein-Friesian Cattle Re-Identification on a Working Farm
要約 私たちは、ホルスタイン フリージアン牛の独特の白と黒の毛皮パターンを利用し … 続きを読む
カテゴリー: cs.CV
MultiCamCows2024 — A Multi-view Image Dataset for AI-driven Holstein-Friesian Cattle Re-Identification on a Working Farm はコメントを受け付けていません