-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Exploring Perceptual Limitation of Multimodal Large Language Models
要約 マルチモーダル大規模言語モデル (MLLM) は最近、視覚的な質問に答える … 続きを読む
StyleLipSync: Style-based Personalized Lip-sync Video Generation
要約 この論文では、任意のオーディオからアイデンティティに依存しないリップシンク … 続きを読む
TriAug: Out-of-Distribution Detection for Robust Classification of Imbalanced Breast Lesion in Ultrasound
要約 乳房病変の組織学的サブタイプなど、さまざまな病気の発生率は大きく異なります … 続きを読む
SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks
要約 セマンティック セグメンテーションにおける最先端の手法の効率を向上させるに … 続きを読む
Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models
要約 ラージ ビジョン言語モデル (LVLM) の最近の進歩により、人間の言語に … 続きを読む
AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer
要約 LiDAR とカメラのデータを組み合わせることで、自動運転システムにおける … 続きを読む
PBADet: A One-Stage Anchor-Free Approach for Part-Body Association
要約 人間の部分 (手、顔など) を検出し、それらを個人と正しく関連付けることは … 続きを読む
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models
要約 視覚条件付き言語モデル (VLM) は、視覚的な対話、シーンの理解、ロボッ … 続きを読む
Detection of Spider Mites on Labrador Beans through Machine Learning Approaches Using Custom Datasets
要約 食糧生産の需要が高まる中、作物を守るためには植物の病気を早期に検出すること … 続きを読む
Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss
要約 我々は、連続的な意思決定タスクにおける少数ショットのポリシー学習効率を向上 … 続きを読む