-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
SeTAR: Out-of-Distribution Detection with Selective Low-Rank Approximation
要約 ニューラル ネットワークを安全に展開するには、分布外 (OOD) の検出が … 続きを読む
An Empirical Study on the Fairness of Foundation Models for Multi-Organ Image Segmentation
要約 Segment Anything Model (SAM) などのセグメンテ … 続きを読む
Probabilistic Conceptual Explainers: Trustworthy Conceptual Explanations for Vision Foundation Models
要約 ビジョン トランスフォーマー (ViT) は、特に大規模な言語モデルと共同 … 続きを読む
Do More Details Always Introduce More Hallucinations in LVLM-based Image Captioning?
要約 Large Vision-Language Model (LVLM) は、 … 続きを読む
The Lie Derivative for Measuring Learned Equivariance
要約 等分散により、モデルの予測がデータ内の重要な対称性を捉えていることが保証さ … 続きを読む
Online-Adaptive Anomaly Detection for Defect Identification in Aircraft Assembly
要約 異常検出は、データ内の確立されたパターンからの逸脱を検出することを扱います … 続きを読む
AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention
要約 大規模視覚言語モデル (LVLM) は、さまざまなマルチモーダル タスクで … 続きを読む
Beyond Visual Appearances: Privacy-sensitive Objects Identification via Hybrid Graph Reasoning
要約 プライバシーに敏感なオブジェクト識別 (POI) タスクは、シーン内のプラ … 続きを読む
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
要約 大規模言語モデル (LLM) の進歩により、自然言語処理におけるアプリケー … 続きを読む
Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video
要約 単一の 3D ビデオから流体の隠れた特性を推測し、新しいシーンで観察された … 続きを読む