-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion
要約 人間の動きの理解は、大規模なモーション キャプチャ データセットの利用によ … 続きを読む
State Space Model for New-Generation Network Alternative to Transformers: A Survey
要約 ディープラーニング後の時代において、Transformer アーキテクチャ … 続きを読む
Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection
要約 大規模ビジョン言語モデル (LVLM) は、自然言語に基づいて視覚表現を導 … 続きを読む
Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models
要約 CLIP などの大規模な視覚および言語モデルは、通常、Web スケールのデ … 続きを読む
WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture
要約 この研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を促進 … 続きを読む
GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models
要約 本稿では、ドラッグ編集の安定性と画質を向上させる新しいアプローチである G … 続きを読む
ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos
要約 ビデオ内の人間のアクションやアクティビティの認識は、監視と監視、自動運転車 … 続きを読む
Dynamic Resolution Guidance for Facial Expression Recognition
要約 顔の表情認識 (FER) は、人間とコンピューターのインタラクションや感情 … 続きを読む
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
要約 人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
要約 クロスリンガルの画像キャプション付けは、マルチメディア分析におけるクロスリ … 続きを読む