-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Large Language Models Empowered Personalized Web Agents
要約 Webエージェントは、ユーザーの命令に基づいてWebタスクの完了を自動化す … 続きを読む
Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization
要約 学習可能な画像圧縮(LIC)は、RD効率で標準化されたビデオコーデックを上 … 続きを読む
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations
要約 分散除外検出に関する以前の研究(OODD)は、主に単一モダリティモデルに焦 … 続きを読む
Dual-domain Multi-path Self-supervised Diffusion Model for Accelerated MRI Reconstruction
要約 磁気共鳴イメージング(MRI)は重要な診断ツールですが、本質的に長い獲得時 … 続きを読む
MC-LLaVA: Multi-Concept Personalized Vision-Language Model
要約 現在のビジョン言語モデル(VLM)は、視覚的な質問応答など、さまざまなタス … 続きを読む
STEVE: A Step Verification Pipeline for Computer-use Agent Training
要約 グラフィカルユーザーインターフェイスを自律的に操作するためにAIエージェン … 続きを読む
Visual Position Prompt for MLLM based Visual Grounding
要約 マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに … 続きを読む
Exploring the Integration of Key-Value Attention Into Pure and Hybrid Transformers for Semantic Segmentation
要約 CNNは長い間画像処理の最先端と見なされていましたが、トランスアーキテクチ … 続きを読む
AdaWorld: Learning Adaptable World Models with Latent Actions
要約 世界モデルは、アクション制御された予測モデルを学ぶことを目指しており、イン … 続きを読む
Video-T1: Test-Time Scaling for Video Generation
要約 トレーニングデータ、モデルサイズ、および計算コストの増加のスケール機能によ … 続きを読む