-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年8月
SLAM for Visually Impaired People: a Survey
要約 ここ数十年で、視覚障害者 (BVI) が自立して安全に移動する能力を向上さ … 続きを読む
カテゴリー: cs.CV
SLAM for Visually Impaired People: a Survey はコメントを受け付けていません
PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future
要約 拡散確率モデル (DPM) は画像生成において顕著な可能性を示していますが … 続きを読む
カテゴリー: cs.CV
PFDiff: Training-free Acceleration of Diffusion Models through the Gradient Guidance of Past and Future はコメントを受け付けていません
RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba
要約 既存の RGBT 追跡手法は、多くの場合、各レイヤーのクロスモーダル融合を … 続きを読む
カテゴリー: cs.CV
RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba はコメントを受け付けていません
ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area
要約 大規模言語モデル (LLM) は目覚ましい成功を収め、化学を含むさまざまな … 続きを読む
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers
要約 ビジョン トランスフォーマー (ViT) は、ビジョン タスクにおけるパフ … 続きを読む
カテゴリー: cs.CV
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers はコメントを受け付けていません
DivCon: Divide and Conquer for Progressive Text-to-Image Generation
要約 拡散によるテキストから画像への (T2I) 生成は、目覚ましい進歩を遂げま … 続きを読む
カテゴリー: cs.CV
DivCon: Divide and Conquer for Progressive Text-to-Image Generation はコメントを受け付けていません
HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis
要約 病理学の研究、教育、臨床においては、病理画像に基づく意思決定プロセスが非常 … 続きを読む
DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models
要約 CLIP などの視覚言語モデル (VLM) は、ゼロショット画像分類におい … 続きを読む
カテゴリー: cs.CV
DPA: Dual Prototypes Alignment for Unsupervised Adaptation of Vision-Language Models はコメントを受け付けていません
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation
要約 画像のセグメンテーションは視覚の理解において重要な役割を果たします。 最近 … 続きを読む
カテゴリー: cs.CV
SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation はコメントを受け付けていません
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
要約 このレポートでは、大規模マルチモーダル モデル (LMM) を開発するため … 続きを読む