-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年3月
M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation
要約 Markov Map Beost Neighbor(M2N2V2)を提示し … 続きを読む
カテゴリー: cs.CV
M2N2V2: Multi-Modal Unsupervised and Training-free Interactive Segmentation はコメントを受け付けていません
Benchmarking Large Language Models for Handwritten Text Recognition
要約 手書きのテキスト認識(HTR)の従来の機械学習モデル(HTR)は、監督され … 続きを読む
カテゴリー: cs.CV
Benchmarking Large Language Models for Handwritten Text Recognition はコメントを受け付けていません
Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals
要約 Vision-Language Models(VLMS)は、画像処理を統合 … 続きを読む
カテゴリー: cs.CV
Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals はコメントを受け付けていません
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models
要約 ビデオ大規模な言語モデル(Videollms)は、より長いビデオ入力を処理 … 続きを読む
カテゴリー: cs.CV
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models はコメントを受け付けていません
Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data
要約 視覚的推論は、マルチモーダルの大手言語モデル(MLLM)にとって複雑なチャ … 続きを読む
カテゴリー: cs.CV
Chain of Functions: A Programmatic Pipeline for Fine-Grained Chart Reasoning Data はコメントを受け付けていません
Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition
要約 スケルトンベースのアクション認識では、重要な課題は、骨格表現に画像レベルの … 続きを読む
カテゴリー: cs.CV
Revealing Key Details to See Differences: A Novel Prototypical Perspective for Skeleton-based Action Recognition はコメントを受け付けていません
From Monocular Vision to Autonomous Action: Guiding Tumor Resection via 3D Reconstruction
要約 外科的自動化には、正確なガイダンスとシーンの理解が必要です。 文献の現在の … 続きを読む
Do image and video quality metrics model low-level human vision?
要約 SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評 … 続きを読む
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model
要約 一般化された少数のショット3Dポイントクラウドセグメンテーション(GFS- … 続きを読む
カテゴリー: cs.CV
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model はコメントを受け付けていません
PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification
要約 全体のスライド画像(WSI)は、医療診断で広く使用されている高解像度のデジ … 続きを読む
カテゴリー: cs.CV
PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification はコメントを受け付けていません