-
最近の投稿
- Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models
- $\mathcal{L}_1$Quad: $\mathcal{L}_1$ Adaptive Augmentation of Geometric Control for Agile Quadrotors with Performance Guarantees
- Scalable and low-cost remote lab platforms: Teaching industrial robotics using open-source tools and understanding its social implications
- Tabletop Object Rearrangement: Structure, Complexity, and Efficient Combinatorial Search-Based Solutions
- AdaCred: Adaptive Causal Decision Transformers with Feature Crediting
-
最近のコメント
表示できるコメントはありません。 cs.AI (31312) cs.CL (23684) cs.CR (2432) cs.CV (37678) cs.LG (36192) cs.RO (18300) cs.SY (2805) eess.IV (4529) eess.SY (2799) stat.ML (4795)
「cs.MM」カテゴリーアーカイブ
EVOS: Efficient Implicit Neural Training via EVOlutionary Selector
要約 私たちは、Implicit Neural Representation ( … 続きを読む
Low-Latency Scalable Streaming for Event-Based Vision
要約 最近、高速、低消費電力のビデオ キャプチャ用の新しい「イベントベース」カメ … 続きを読む
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む
Towards Open-Vocabulary Video Semantic Segmentation
要約 ビデオのセマンティック セグメンテーションは、最近の研究の焦点となっていま … 続きを読む
Causal Graphical Models for Vision-Language Compositional Understanding
要約 最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に … 続きを読む
Video Seal: Open and Efficient Video Watermarking
要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
要約 マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む
Representing Long Volumetric Video with Temporal Gaussian Hierarchy
要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む