-
最近の投稿
- Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation
- Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows
- Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information
- Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38035) cs.CL (28747) cs.CV (43624) cs.HC (2908) cs.LG (42962) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
Can We Edit Multimodal Large Language Models?
要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む
A Perspective on Deep Vision Performance with Standard Image and Video Codecs
要約 エッジ デバイスや携帯電話など、リソースに制約のあるハードウェアは、ディー … 続きを読む
Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion
要約 人間の動きの理解は、大規模なモーション キャプチャ データセットの利用によ … 続きを読む
State Space Model for New-Generation Network Alternative to Transformers: A Survey
要約 ディープラーニング後の時代において、Transformer アーキテクチャ … 続きを読む
Do LLMs Understand Visual Anomalies? Uncovering LLM Capabilities in Zero-shot Anomaly Detection
要約 大規模ビジョン言語モデル (LVLM) は、自然言語に基づいて視覚表現を導 … 続きを読む
Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models
要約 CLIP などの大規模な視覚および言語モデルは、通常、Web スケールのデ … 続きを読む
WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture
要約 この研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を促進 … 続きを読む
GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models
要約 本稿では、ドラッグ編集の安定性と画質を向上させる新しいアプローチである G … 続きを読む
ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos
要約 ビデオ内の人間のアクションやアクティビティの認識は、監視と監視、自動運転車 … 続きを読む
Dynamic Resolution Guidance for Facial Expression Recognition
要約 顔の表情認識 (FER) は、人間とコンピューターのインタラクションや感情 … 続きを読む