-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Neptune: The Long Orbit to Benchmarking Long Video Understanding
要約 このペーパーでは、長いビデオを理解するための難しい質問、回答、おとりのセッ … 続きを読む
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
要約 人間の認知と同様に、長期間にわたって環境と対話できる AI システムを作成 … 続きを読む
Owl-1: Omni World Model for Consistent Long Video Generation
要約 ビデオ生成モデル (VGM) は最近大きな注目を集めており、汎用大型ビジョ … 続きを読む
TimeRefine: Temporal Grounding with Time Refining Video LLM
要約 ビデオの時間的グラウンディングは、テキストのプロンプトが与えられたビデオ内 … 続きを読む
Hidden Biases of End-to-End Driving Datasets
要約 エンドツーエンドの駆動システムは急速に進歩していますが、これまでのところ、 … 続きを読む
Olympus: A Universal Task Router for Computer Vision Tasks
要約 マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む
Doe-1: Closed-Loop Autonomous Driving with Large World Model
要約 エンドツーエンドの自動運転は、大量のデータから学習できる可能性があるため、 … 続きを読む
Exact Algorithms for Multiagent Path Finding with Communication Constraints on Tree-Like Structures
要約 複数のエージェントがネットワーク内を最適な方法で移動し、各エージェントが衝 … 続きを読む
EmoSpeech: A Corpus of Emotionally Rich and Contextually Detailed Speech Annotations
要約 テキスト読み上げ (TTS) テクノロジーの進歩により、生成される音声の品 … 続きを読む
Annotation-guided Protein Design with Multi-Level Domain Alignment
要約 de novo タンパク質設計の中心的な課題は、特定の条件に従って、特定の … 続きを読む