-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
HDLdebugger: Streamlining HDL debugging with Large Language Models
要約 チップ設計の領域では、ハードウェア記述言語 (HDL) が極めて重要な役割 … 続きを読む
Is it Really Negative? Evaluating Natural Language Video Localization Performance on Multiple Reliable Videos Pool
要約 近年のマルチメディア コンテンツの急増に伴い、複数のビデオから特定の自然言 … 続きを読む
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
要約 大規模マルチモーダル モデル (LMM) の機能が進化し続けるにつれて、L … 続きを読む
Deep Homography Estimation for Visual Place Recognition
要約 視覚的場所認識 (VPR) は、ロボットの位置特定や拡張現実などの多くのア … 続きを読む
Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving
要約 大規模言語モデル (LLM) は、テキストと画像を理解し、人間のようなテキ … 続きを読む
QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation
要約 音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。 音楽とシ … 続きを読む
Stop Reasoning! When Multimodal LLMs with Chain-of-Thought Reasoning Meets Adversarial Images
要約 最近、マルチモーダル LLM (MLLM) は画像を理解する優れた能力を示 … 続きを読む
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
要約 ビジュアル エンコーディングは、ビジュアル世界を理解する際の大規模マルチモ … 続きを読む
Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models
要約 自然言語、プログラミング コード、数学記号の基礎となるデータ分布は大きく異 … 続きを読む
Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK)
要約 この論文では、キャラクターのようなペルソナを使用して視聴者の参加を強化する … 続きを読む